使用简单随机抽样定义样本量
Define sample size using simple random sampling
我正在尝试 运行 PCA,但我的数据太多(20k 个观测值)分辨率太低。
我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更合适。
我的问题是:定义(或估计)样本量 (n) 的最佳技术是什么?
如果我有 20k 个观测值(不同地点,一年中的不同时间,相对均匀),我应该使用哪个截止值:5%、10%、20%?
可以给我一个你的建议参考吗?
提前感谢您的意见。
我会用不同的样本量做一个循环,我不相信有一个明确的 cut/off 你可以用 train/test 做(虽然我们有管道,但你知道我的意思70/30 截止)。我唯一要检查的是 sample_n 是否仍然不太聚集,并且值的代表相对均等。
如果您对 k-means 聚类很坚定,我们有“elbow 方法”,它有点主观,聚类的最佳数量在哪里(尽管我们测量 RSS),您只需要尝试很多迭代和循环。
当你有神经网络时,你就知道了。一百万次观察,您可以将测试集减少到例如5 或 10 %,因为在绝对值上你仍然有很多情况。
总结:
我认为它需要像聚类中的肘部方法一样进行实际测试。因为它可能非常特定于您的数据。
我希望我的回答至少对你有一定的价值,我没有期刊参考 atm。
我正在尝试 运行 PCA,但我的数据太多(20k 个观测值)分辨率太低。 我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更合适。
我的问题是:定义(或估计)样本量 (n) 的最佳技术是什么? 如果我有 20k 个观测值(不同地点,一年中的不同时间,相对均匀),我应该使用哪个截止值:5%、10%、20%?
可以给我一个你的建议参考吗?
提前感谢您的意见。
我会用不同的样本量做一个循环,我不相信有一个明确的 cut/off 你可以用 train/test 做(虽然我们有管道,但你知道我的意思70/30 截止)。我唯一要检查的是 sample_n 是否仍然不太聚集,并且值的代表相对均等。
如果您对 k-means 聚类很坚定,我们有“elbow 方法”,它有点主观,聚类的最佳数量在哪里(尽管我们测量 RSS),您只需要尝试很多迭代和循环。
当你有神经网络时,你就知道了。一百万次观察,您可以将测试集减少到例如5 或 10 %,因为在绝对值上你仍然有很多情况。
总结: 我认为它需要像聚类中的肘部方法一样进行实际测试。因为它可能非常特定于您的数据。
我希望我的回答至少对你有一定的价值,我没有期刊参考 atm。