当我只有要聚类的变量之间的相似性而不是变量的数据时,如何使用约束 K 均值聚类?

How to use Constrained K-Means Clustering when I only have the similarity between the variables to be clustered and not the data for the variables?

我有一个数据电子表格,其中最左边列的前 12 行有 12 个名称,按字母顺序(降序),最上面一行的前 12 列有相同的名称,按字母顺序(从左到-正确的)。这些名字代表对某事进行排名的人的名字,此电子表格单元格中的值是最左侧列和与单元格相邻的最顶行中的名字之间的 Kendall's Tau 相似系数。如何使用约束 K 均值聚类来查找这些名称之间的相似性?

图片:

K-mrans 聚类不适用于相似性矩阵。

它需要欧几里得space向量数据,以便计算均值(因此得名)。它不能最大化相似性,但它最小化坐标差异的平方和。

此外,你的问题跑题了,因为它不是编程问题,而是你只想使用现有程序。

由于您的数据非常小,可以放在一个屏幕上,我建议您简单地暴力测试所有可能的解决方案。然后添加你的约束就很简单了(跳过不符合你的尺寸要求的候选人)。即使没有约束,如果你想要 4 个集群,你的可能性也远少于 4^11,即 400 万减去大量冗余排列减去所有集群太小或太大的那些。