聚类分配重映射

Cluster assignment remapping

我有来自 UCI 机器学习存储库的测试 class化数据集,这些数据集被标记了。

我正在剥离标签并使用数据对一些聚类算法进行基准测试,然后我打算使用外部验证方法。我将 运行 具有不同初始配置的算法,例如 50 次,然后取平均值。对于 50 次迭代,该算法用不同的数字标记单个集群的数据点。因为在每个 运行 中,集群标签可能会发生变化,也因为每次迭代的集群分配可能略有不同,所以如何以某种方式将每个集群重新映射到一个统一的编号。

主要想法是通过检查 class 标签中有多少点与实际标签中的最大值相交,然后基于此进行重映射来进行重映射,但这可能会导致重映射不正确,因为当classes 将具有或多或少相等的点数,这是行不通的。

另一个想法是在聚类时保留标签,但让聚类算法忽略它。这样所有的集群数据都会有标签标签。这是可行的,但我已经有一个要处理的基准集群分配数据,因此我试图避免修改和重新基准测试我的集群分析算法的实现(这将花费相当长的时间和 cpu)并包括将 label 标记添加到向量中,然后忽略它。

有什么方法可以根据我现在拥有的集群分配计算平均准确度?

编辑:

我正在研究的领域(元启发式聚类算法)我找不到比较这些指标的论文。比较的论文的价值似乎不正确。谁能给我指出一篇论文,其中使用这些索引中的任何一个来比较聚类结果?

number个集群不一致怎么办?

不要尝试映射集群。

相反,使用适当的外部验证措施进行聚类,不需要 1:1 集群对应。有很多,详见维基百科