simplekmeans 聚类上的聚类质心

Cluster centroids on simplekmeans clustering

我目前正在尝试解释从 运行 SimpleKMeans 聚类 Diabetes.arff 数据集上收集的一组结果。

http://i.stack.imgur.com/T4eho.jpg - link 到集群实例(图 1)

到目前为止,我可以理解聚类实例(图 1)显示 500 个变量被分类为测试阴性,268 个变量被分类为测试阳性。

http://i.stack.imgur.com/X9szt.jpg - link 到真实值(图 2)

将这些值与真实值进行比较时,差异不大,因为正确的聚类应该表明 500 个被分类为测试阴性,268 个被分类为测试阳性。这在技术上意味着 SimpleKMeans 聚类方法适用于此数据集,因为它已正确分类实例。

但我不知道如何解释完整数据、集群 #0 和集群 1 标题下的集群质心 table 中的信息。他们告诉我们关于数据集的什么信息(图 1)?

您应该在进行聚类之前删除 class 属性。它具有太多的预测能力,因此,聚类算法在内部有强烈的偏好 class 属性。

您可以在 "Preprocess" 面板中单击 "remove" 按钮或在 "Cluster" 面板中单击 "ignore attributes",然后选择 "class"属性。

然后再聚类。我建议从 k = 2 开始,这是 "class" 属性的唯一值的数量。 (然后检查聚类分配是否对应于原始属性,或者做其他事情。)

顺便说一句,在我看来,您不是在处理 "glass" 数据集,而是在处理 "diabetes" 数据集。