Gap 统计的推荐模拟参考数据集数

Recommended number of simulated reference datasets for Gap statistic

在计算 Tibshirani 的差距统计量时，参考分布中是否有推荐数量的模拟数据集 (B)？ B=50？ B=100？ B=500？ B=1000？如果是这样，有什么好的参考资料提到它吗？

如果我们回到原始出版物 [Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)]，作者定义了“1-标准误差”规则以确定最佳聚类数为最小 k 和

其中 s_k 是 MC 模拟校正标准误差

B 个从参考分布中提取的 MC 样本副本。

在后一个等式中，平方根项允许您估计由于 MC 样本数量引起的标准偏差的校正，我们显然有

例如，对于B = 10，标准偏差s_k由于MC采样不确定性增加了5%。如果选择B = 100，则增加0.5%。

我想实际上，B = 10 可能足以满足很多应用程序的需求。但这需要根据您的实际数据及其基础集群结构（例如，分离良好的集群与分离较少的集群的数量）对差距统计数据及其标准差进行一些试错评估。

一些有用的参考资料（排名不分先后）