如何创建大小相等的簇

How to create clusters with equal sizes

我有大量数据。我想创建大小相等的集群,无论集群的数量是多少。我为此使用 SMILE 库。我应该使用什么聚类方法或如何实现具有相同大小的聚类的聚类。

关于这个话题有一些讨论。

https://elki-project.github.io/tutorial/same-size_k_means

Group n points in k clusters of equal size

K-means algorithm variation with equal cluster size

另外,检查亲和力传播和 DBSCAN。两者都是非常流行的 K-Means 算法的绝佳替代方案,并且与 K-Means 不同,它们都可以自动找到最佳聚类数。

https://hdbscan.readthedocs.io/en/latest/comparing_clustering_algorithms.html

我并不是说这些会给你相同大小的集群,但了解这些其他替代方法是很好的,使用这些方法可能比强制集群具有相同数量的数据点更实用.聚类是一种无监督的分析类型。似乎强制集群具有相同大小的结果有点像一种强制方法,并且几乎是受监督的,但它不是设计的。