使用简单随机抽样定义样本量

Define sample size using simple random sampling

我正在尝试运行 PCA，但我的数据太多（20k 个观测值）分辨率太低。我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更合适。

我的问题是：定义（或估计）样本量 (n) 的最佳技术是什么？如果我有 20k 个观测值（不同地点，一年中的不同时间，相对均匀），我应该使用哪个截止值：5%、10%、20%？

可以给我一个你的建议参考吗？

提前感谢您的意见。

我会用不同的样本量做一个循环，我不相信有一个明确的 cut/off 你可以用 train/test 做（虽然我们有管道，但你知道我的意思70/30 截止）。我唯一要检查的是 sample_n 是否仍然不太聚集，并且值的代表相对均等。

如果您对 k-means 聚类很坚定，我们有“elbow 方法”，它有点主观，聚类的最佳数量在哪里（尽管我们测量 RSS），您只需要尝试很多迭代和循环。

当你有神经网络时，你就知道了。一百万次观察，您可以将测试集减少到例如5 或 10 %，因为在绝对值上你仍然有很多情况。

总结：我认为它需要像聚类中的肘部方法一样进行实际测试。因为它可能非常特定于您的数据。

我希望我的回答至少对你有一定的价值，我没有期刊参考 atm。