具有最小大小约束的聚类算法

Question

我有一组数据聚类成k组，每个聚类的最小大小限制为m

我对数据进行了一些重新聚类。所以现在我得到了这组点，每个点都有一个或多个更好的集群，但不能单独切换，因为它会违反大小限制。

目标：最小化每个点到其聚类中心的距离之和。

服从：最小簇大小m

我想找到一种算法来重新分配所有点而不违反约束，同时保证减少 objective。

我想到了使用 Graph 来表示点之间的成对关系。但是我不确定如何进行重新分配，因为它存在大密集循环的可能性，而且我在多个集群之间交换多个点时迷路了。

我还创建了一个包含可能交换候选的集群对列表，但仍然找不到优化 objective 的方法。

我希望我解释了我的情况。我是算法新手，不熟悉行话和规则。如果需要任何其他信息，请告诉我。

我做了很多研究，我尝试了本文中的算法，但没有成功，因为隶属度之和不一定与簇大小相关。 Clustering with Size Constraints

我也阅读了关于 SO 的其他类似帖子，但没有找到我可以实现的详细算法。

我试图构建一个加权有向图，顶点代表集群，A到B的边代表集群A中愿意迁移到集群B的点。权重是点的总和

但是根据我的数据，所有节点都处于一个边缘非常密集的巨大循环中。由于我的经验有限，我仍然想不出如何在这么多集群中重新分配。任何建议表示赞赏！

类似这样。

Answer 1

要获得最小（不幸的是不是最小）解决方案：

首先，贪婪地重新聚类任何你可以不违反的点最小尺寸限制。
接下来，构建一个有向多重图如下：
1. 每个集群成为一个节点。
2. 为 A 中靠近 B 中心的每个点添加边 (A,B) （因此同一对节点）；它的重量应该与移动它获得的收益成正比。

Looking for cycles in this graph 将允许您找到动作（移动包括移动循环中的每个顶点）。

选择总权重最大的循环，重新聚类边对应的节点。

重复步骤 1-4 直到没有更多的循环。

创建图形的复杂度为O(kn)，其中总共有k 和n 个点，并且可以创建相同数量的多边。 Tarjan 的算法将具有 O(k²) 的复杂性，假设您跳过多边到 DFS 中的相同目的地。每消去一个圈，全局距离就会减少一定量，并从图中至少去除一条边，所以算法的总时间不能超过 O(k⁴m²)。那太奢侈了；我确定可以通过启发式方法（可能还有更详细的分析）来改进下限。

Answer 2

本文解决了这个问题：

Bradley, P. S.、K. P. Bennett 和 Ayhan Demiriz。 "Constrained k-means clustering." 微软研究院，雷德蒙德 (2000): 1-8.

We propose explicitly adding $k$ constraints to the underlying clustering optimization problem requiring that cluster $h$ contain at least $\tau_h$ points.

我在python中有一个implementation的算法。

Answer 3

试试这个：pip install k-means-constrained 然后

from k_means_constrained import KMeansConstrained
KMeansConstrained(n_clusters=8, size_min=None, size_max=None, init='k-means++', n_init=10, max_iter=300, tol=0.0001, verbose=False, random_state=None, copy_x=True, n_jobs=1)

来源：

https://pypi.org/project/k-means-constrained/

https://joshlk.github.io/k-means-constrained/

具有最小大小约束的聚类算法

Algorithm for clustering with minimum size constraints

algorithm

cluster-analysis