图像聚类以评估多样性(Weka?)

Clustering of images to evaluate diversity (Weka?)

在大学课程中,我有一些图像特征(如 文本 文件)。我必须根据它们的多样性对这些图像进行排名。#

我的想法是将图像输入 k-means 分类器,然后计算从集群内的图像到集群的中心点的欧几里德距离。然后在集群之间进行旋转,并始终获取最接近中心的(下一个)图像。即,return 最接近中心 1,然后最接近中心 2,然后是 3...然后第二接近中心 1、2、3,依此类推。

第一个问题:这是一个聪明的方法吗?还是我走错了路?

第二个问题:我有点困惑。我以为我会将数据提供给 Weka,它会告诉我 "hey, if I were you, I'd split this data into 7 clusters" 或类似的信息。我的意思是,它能够为我提供一些关于我需要的集群的信息。相反,要使用 simplekmeans,我应该事先知道我将使用多少个集群...我怎么可能知道?

我的意思的一个例子:假设我有 3 张单色图像:浅蓝色、蓝色、红色。 我以为 Weka 会注意到这 2 个布鲁斯很相似并将它们聚集在一起。

顺便说一句,我是 Weka 的新手(正如您可能已经看到的那样),所以如果您能提供一些关于我想使用哪些函数的信息(以及为什么 :P),我将不胜感激! 谢谢!

简单 K-means - 是一种算法,您必须在其中指定数据集中可能的聚类数。

如果您不知道可能有多少个聚类,最好使用不同的算法或找出多个聚类。

您可以使用 X-means - 您不需要指定 k 参数。 (http://weka.sourceforge.net/doc.packages/XMeans/weka/clusterers/XMeans.html)

X-Means is K-Means extended by an Improve-Structure part In this part of the algorithm the centers are attempted to be split in its region. The decision between the children of each center and itself is done comparing the BIC-values of the two structures.

或者你可以观察一个基于AHC-层次聚类算法的切点图(https://en.wikipedia.org/wiki/Hierarchical_clustering) 然后减去一些簇