Gap 统计的推荐模拟参考数据集数

Recommended number of simulated reference datasets for Gap statistic

在计算 Tibshirani 的差距统计量时,参考分布中是否有推荐数量的模拟数据集 (B)? B=50? B=100? B=500? B=1000?如果是这样,有什么好的参考资料提到它吗?

如果我们回到原始出版物 [Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)],作者定义了“1-标准误差”规则以确定最佳聚类数为最小 k

其中 s_k 是 MC 模拟校正标准误差

B 个从参考分布中提取的 MC 样本副本。

在后一个等式中,平方根项允许您估计由于 MC 样本数量引起的标准偏差的校正,我们显然有

例如,对于B = 10,标准偏差s_k由于MC采样不确定性增加了5%。如果选择B = 100,则增加0.5%。

我想实际上,B = 10 可能足以满足很多应用程序的需求。但这需要根据您的实际数据及其基础集群结构(例如,分离良好的集群与分离较少的集群的数量)对差距统计数据及其标准差进行一些试错评估。

一些有用的参考资料(排名不分先后)

Cross Validated: How should I interpret GAP statistic

The Data Science Lab: Finding the K in K-Means Clustering

Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)