我们如何在 weka 中使用聚类结果?
How can we use clustering results in weka ?
我在实习期间使用Weka,但我对数据挖掘了解甚少。那么,也许有人知道如何将以下结果应用于我的数据集以按集群获取所有数据?我现在使用的方法是计算我的属性和每个聚类的平均值之间的距离,然后根据最接近的值对它们进行分类。但是这个方法对我来说太粗糙了。
=== Run information ===
Scheme:weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100
Relation: wcet_cluster6 - Copie-weka.filters.unsupervised.attribute.Remove-R1-3,5-weka.filters.unsupervised.attribute.Remove-R5-12
Instances: 467
Attributes: 4
max
alt
stmt
bb
Test mode:evaluate on training data
=== Model and evaluation on training set ===
EM
Number of clusters selected by cross validation: 6
Cluster
Attribute 0 1 2 3 4 5
(0.28) (0.11) (0.25) (0.16) (0.04) (0.17)
==================================================================
max
mean 9.0148 10.9112 11.2826 10.4329 11.2039 10.0546
std. dev. 1.8418 2.7775 3.0263 2.5743 2.2014 2.4614
alt
mean 0.0003 19.6467 0.4867 2.4565 44.191 8.0635
std. dev. 0.0175 5.7685 0.5034 1.3647 10.4761 3.3021
stmt
mean 0.7295 77.0348 3.2439 12.3971 140.9367 33.9686
std. dev. 1.0174 21.5897 2.3642 5.1584 34.8366 11.5868
bb
mean 0.4362 53.9947 1.4895 7.2547 114.7113 22.2687
std. dev. 0.5153 13.1614 0.9276 3.5122 28.0919 7.6968
Time taken to build model (full training data) : 4.24 seconds
=== Model and evaluation on training set ===
Clustered Instances
0 163 ( 35%)
1 50 ( 11%)
2 85 ( 18%)
3 73 ( 16%)
4 18 ( 4%)
5 78 ( 17%)
Log likelihood: -9.09081
感谢您的帮助!!
我想没有人能真正回答这个问题。我想到了一些提示。
您已经使用了 EM clustering algorithm,请参阅维基百科页面上的 gif 动画。来自 Weka 的文档概要:
"EM assigns a probability distribution to each instance which
indicates the probability of it belonging to each of the clusters. "
这个复杂的输出真的是你想要的吗?
它还 select 为您提供了一些集群(除非您限制该数量)。
在 weka 3.7 中,您可以使用“预处理”对话框中的无监督属性过滤器 "ClusterMembership" 将您的数据集替换为聚类分配的结果。不过,您需要 select 一个参考属性。默认情况下,它 select 是最后一个。这会产生难以解释的输出。
我在实习期间使用Weka,但我对数据挖掘了解甚少。那么,也许有人知道如何将以下结果应用于我的数据集以按集群获取所有数据?我现在使用的方法是计算我的属性和每个聚类的平均值之间的距离,然后根据最接近的值对它们进行分类。但是这个方法对我来说太粗糙了。
=== Run information ===
Scheme:weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100
Relation: wcet_cluster6 - Copie-weka.filters.unsupervised.attribute.Remove-R1-3,5-weka.filters.unsupervised.attribute.Remove-R5-12
Instances: 467
Attributes: 4
max
alt
stmt
bb
Test mode:evaluate on training data
=== Model and evaluation on training set ===
EM
Number of clusters selected by cross validation: 6
Cluster
Attribute 0 1 2 3 4 5
(0.28) (0.11) (0.25) (0.16) (0.04) (0.17)
==================================================================
max
mean 9.0148 10.9112 11.2826 10.4329 11.2039 10.0546
std. dev. 1.8418 2.7775 3.0263 2.5743 2.2014 2.4614
alt
mean 0.0003 19.6467 0.4867 2.4565 44.191 8.0635
std. dev. 0.0175 5.7685 0.5034 1.3647 10.4761 3.3021
stmt
mean 0.7295 77.0348 3.2439 12.3971 140.9367 33.9686
std. dev. 1.0174 21.5897 2.3642 5.1584 34.8366 11.5868
bb
mean 0.4362 53.9947 1.4895 7.2547 114.7113 22.2687
std. dev. 0.5153 13.1614 0.9276 3.5122 28.0919 7.6968
Time taken to build model (full training data) : 4.24 seconds
=== Model and evaluation on training set ===
Clustered Instances
0 163 ( 35%)
1 50 ( 11%)
2 85 ( 18%)
3 73 ( 16%)
4 18 ( 4%)
5 78 ( 17%)
Log likelihood: -9.09081
感谢您的帮助!!
我想没有人能真正回答这个问题。我想到了一些提示。
您已经使用了 EM clustering algorithm,请参阅维基百科页面上的 gif 动画。来自 Weka 的文档概要:
"EM assigns a probability distribution to each instance which indicates the probability of it belonging to each of the clusters. "
这个复杂的输出真的是你想要的吗? 它还 select 为您提供了一些集群(除非您限制该数量)。
在 weka 3.7 中,您可以使用“预处理”对话框中的无监督属性过滤器 "ClusterMembership" 将您的数据集替换为聚类分配的结果。不过,您需要 select 一个参考属性。默认情况下,它 select 是最后一个。这会产生难以解释的输出。