用于聚类最小生成树的数据集

Datasets for clustering minimum spanning tree

最近接触到最小生成树的思想,发现它在聚类中有应用。我正在寻找一个真实世界的数据集(最好是干净的),它可以用作各种聚类算法的数据源。有信息表明 MST 聚类在球形和非球形数据上的效果都很好。这就是非球形数据集也受到追捧的原因。

我想到的数据集应该包含基本事实信息(标签),以便可以通过不同于 WSS 的东西来衡量各种算法的有效性。

最小生成树聚类是标准的并且得到了很好的研究。

只是叫法不同而已。

Single-link层次聚类正好是最小生成树,fast SLINK算法与Prim的密切相关

弱点也很好理解。您几乎可以使用任何数据集。例如常见的 Iris 数据集。