了解 K 均值聚类
Understanding K-means Clustering
我正在尝试使用 Matlab 学习 k 均值聚类算法。问题是我找不到任何样本数据,它可以使算法更容易理解。
但是,我在 mathworks which speciying the k-means clustering. But unfortunately,I cannot under stand it. I tried to understand this simple data-set which I found on Stack-overflow 上找到了一个例子。
拜托,我需要一个关于 k 均值聚类的基本示例,如果我在任何软件(即 matlab)上实现它,我将确保我正确应用它。
最后,例如 UCI 上的所有数据集都太大了,我不知道我的实现是否正确。
提前致谢。
我知道您正在使用 MatLab,但 R 有许多用于测试聚类算法的数据集,其中一些数据集相当小。 ruspini 数据集是一个很好的起点。这些数据集可作为来自 github 的 csv 文件使用,MatLab 应该能够读取 csv 文件。只需在本页中搜索单词 cluster。
我们有一组数据,任何人都会说它属于三个集群。我们知道聚类数将是三个,但除此之外我们希望软件为我们进行聚类。
因此,首先将三个对象随机分配到聚类中心。现在遍历并将每个对象分配到其最近的集群。结果是三个聚类,但非常丑陋,因为我们不太可能第一次击中三个实际的质心。
因此,取你生成的每个集群的平均值,然后再次进行,将对象分配给新的集群质心。重复直到算法达到稳定。取平均值的过程倾向于将对聚类中心的猜测推向实际中心。
但是,它仅在数据实际上是集群的情况下才有效。
非常经典的iris数据对于理解k-means来说还可以
甚至可能会看到 k-means 的一些问题。
我正在尝试使用 Matlab 学习 k 均值聚类算法。问题是我找不到任何样本数据,它可以使算法更容易理解。 但是,我在 mathworks which speciying the k-means clustering. But unfortunately,I cannot under stand it. I tried to understand this simple data-set which I found on Stack-overflow 上找到了一个例子。
拜托,我需要一个关于 k 均值聚类的基本示例,如果我在任何软件(即 matlab)上实现它,我将确保我正确应用它。
最后,例如 UCI 上的所有数据集都太大了,我不知道我的实现是否正确。
提前致谢。
我知道您正在使用 MatLab,但 R 有许多用于测试聚类算法的数据集,其中一些数据集相当小。 ruspini 数据集是一个很好的起点。这些数据集可作为来自 github 的 csv 文件使用,MatLab 应该能够读取 csv 文件。只需在本页中搜索单词 cluster。
我们有一组数据,任何人都会说它属于三个集群。我们知道聚类数将是三个,但除此之外我们希望软件为我们进行聚类。
因此,首先将三个对象随机分配到聚类中心。现在遍历并将每个对象分配到其最近的集群。结果是三个聚类,但非常丑陋,因为我们不太可能第一次击中三个实际的质心。
因此,取你生成的每个集群的平均值,然后再次进行,将对象分配给新的集群质心。重复直到算法达到稳定。取平均值的过程倾向于将对聚类中心的猜测推向实际中心。
但是,它仅在数据实际上是集群的情况下才有效。
非常经典的iris数据对于理解k-means来说还可以
甚至可能会看到 k-means 的一些问题。