调整后的互信息 (scikit-learn)

Adjusted Mutual Information (scikit-learn)

我已经实施了一种用于汇总日志文件的聚类算法，目前正在使用 Adjusted Rand 指数和 Adjusted Mutual Information 指数针对地面实况数据对其进行测试。

我的算法的输入是一个日志条目列表，输出是一个整数列表（每个项目所属的集群标签）。 ground truth 类似地是一个整数列表，其中每个整数代表该项目所属的真实集群。对于我的大多数测试用例，我收到了 normal/expected 个结果，但是一个文件给出了意外的输出。我附上了两个列表，真实聚类以及我的算法的列表：

基本事实列表： http://pastebin.com/9Y5TE6b7

自己的集群： http://pastebin.com/hJz1M4sf

这两个列表被输入到 scikit-learn 函数中以获取 ARI 和 AMI。 ARI 分数看起来大致正确，但 AMI 高于 1，根据 AMI 的文档和定义，如果我理解正确的话，这应该是不可能的。这个数据集是高度不平衡的，但我的许多其他文件也有类似的平衡。我想不通。作为参考，我得到的 ARI 和 AMI 分数是：

阿里：0.99642743999922712

AMI: 1.0190170466324

这已在开发版本中fixed。

调整后的互信息 (scikit-learn)

Adjusted Mutual Information (scikit-learn)

python-2.7

machine-learning

scikit-learn

cluster-analysis