了解 K 均值聚类

Understanding K-means Clustering

我正在尝试使用 Matlab 学习 k 均值聚类算法。问题是我找不到任何样本数据，它可以使算法更容易理解。但是，我在 mathworks which speciying the k-means clustering. But unfortunately,I cannot under stand it. I tried to understand this simple data-set which I found on Stack-overflow 上找到了一个例子。

拜托，我需要一个关于 k 均值聚类的基本示例，如果我在任何软件（即 matlab）上实现它，我将确保我正确应用它。

最后，例如 UCI 上的所有数据集都太大了，我不知道我的实现是否正确。

提前致谢。

我知道您正在使用 MatLab，但 R 有许多用于测试聚类算法的数据集，其中一些数据集相当小。 ruspini 数据集是一个很好的起点。这些数据集可作为来自 github 的 csv 文件使用，MatLab 应该能够读取 csv 文件。只需在本页中搜索单词 cluster。

我们有一组数据，任何人都会说它属于三个集群。我们知道聚类数将是三个，但除此之外我们希望软件为我们进行聚类。

因此，首先将三个对象随机分配到聚类中心。现在遍历并将每个对象分配到其最近的集群。结果是三个聚类，但非常丑陋，因为我们不太可能第一次击中三个实际的质心。

因此，取你生成的每个集群的平均值，然后再次进行，将对象分配给新的集群质心。重复直到算法达到稳定。取平均值的过程倾向于将对聚类中心的猜测推向实际中心。

但是，它仅在数据实际上是集群的情况下才有效。

非常经典的iris数据对于理解k-means来说还可以

甚至可能会看到 k-means 的一些问题。

了解 K 均值聚类

Understanding K-means Clustering

matlab

cluster-analysis

k-means