simplekmeans 聚类上的聚类质心

Cluster centroids on simplekmeans clustering

我目前正在尝试解释从运行 SimpleKMeans 聚类 Diabetes.arff 数据集上收集的一组结果。

到目前为止，我可以理解聚类实例（图 1）显示 500 个变量被分类为测试阴性，268 个变量被分类为测试阳性。

将这些值与真实值进行比较时，差异不大，因为正确的聚类应该表明 500 个被分类为测试阴性，268 个被分类为测试阳性。这在技术上意味着 SimpleKMeans 聚类方法适用于此数据集，因为它已正确分类实例。

但我不知道如何解释完整数据、集群 #0 和集群 1 标题下的集群质心 table 中的信息。他们告诉我们关于数据集的什么信息（图 1）？

您应该在进行聚类之前删除 class 属性。它具有太多的预测能力，因此，聚类算法在内部有强烈的偏好 class 属性。

您可以在 "Preprocess" 面板中单击 "remove" 按钮或在 "Cluster" 面板中单击 "ignore attributes"，然后选择 "class"属性。

然后再聚类。我建议从 k = 2 开始，这是 "class" 属性的唯一值的数量。（然后检查聚类分配是否对应于原始属性，或者做其他事情。）

顺便说一句，在我看来，您不是在处理 "glass" 数据集，而是在处理 "diabetes" 数据集。