调整后的互信息 (scikit-learn)

Adjusted Mutual Information (scikit-learn)

我已经实施了一种用于汇总日志文件的聚类算法,目前正在使用 Adjusted Rand 指数和 Adjusted Mutual Information 指数针对地面实况数据对其进行测试。

我的算法的输入是一个日志条目列表,输出是一个整数列表(每个项目所属的集群标签)。 ground truth 类似地是一个整数列表,其中每个整数代表该项目所属的真实集群。对于我的大多数测试用例,我收到了 normal/expected 个结果,但是一个文件给出了意外的输出。我附上了两个列表,真实聚类以及我的算法的列表:

基本事实列表: http://pastebin.com/9Y5TE6b7

自己的集群: http://pastebin.com/hJz1M4sf

这两个列表被输入到 scikit-learn 函数中以获取 ARI 和 AMI。 ARI 分数看起来大致正确,但 AMI 高于 1,根据 AMI 的文档和定义,如果我理解正确的话,这应该是不可能的。这个数据集是高度不平衡的,但我的许多其他文件也有类似的平衡。我想不通。作为参考,我得到的 ARI 和 AMI 分数是:

阿里:0.99642743999922712

AMI: 1.0190170466324

这已在开发版本中fixed