使用简单随机抽样定义样本量

Define sample size using simple random sampling

我正在尝试 运行 PCA,但我的数据太多(20k 个观测值)分辨率太低。 我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更合适。

我的问题是:定义(或估计)样本量 (n) 的最佳技术是什么? 如果我有 20k 个观测值(不同地点,一年中的不同时间,相对均匀),我应该使用哪个截止值:5%、10%、20%?

可以给我一个你的建议参考吗?

提前感谢您的意见。

我会用不同的样本量做一个循环,我不相信有一个明确的 cut/off 你可以用 train/test 做(虽然我们有管道,但你知道我的意思70/30 截止)。我唯一要检查的是 sample_n 是否仍然不太聚集,并且值的代表相对均等。

如果您对 k-means 聚类很坚定,我们有“elbow 方法”,它有点主观,聚类的最佳数量在哪里(尽管我们测量 RSS),您只需要尝试很多迭代和循环。

当你有神经网络时,你就知道了。一百万次观察,您可以将测试集减少到例如5 或 10 %,因为在绝对值上你仍然有很多情况。

总结: 我认为它需要像聚类中的肘部方法一样进行实际测试。因为它可能非常特定于您的数据。

我希望我的回答至少对你有一定的价值,我没有期刊参考 atm。