如何在 python 中找到 Kmeans++ 聚类的拟合度
How to find degree of fit in Kmeans++ clustering in python
如何找到 K-means++ 聚类中的拟合度,以显示输入与每个聚类对齐的百分比。例如,输入 A 在 0.4 的集群 1 中,在 0.6 的集群 2 中。
标准的k-means是hard clustering算法,即没有拟合度;数据点只属于一个集群。这是来自相关 academic paper 的引述(强调已添加):
2.3.1. Hard k-means
[...]
In k-means clustering only bivalent membership degrees of object i to
cluster k are allowed: λ[i,k]∈{0,1}. If an object i is a member of a
cluster it cannot be a member of any other cluster
K-means++只是一种为k-means选择初始值(种子)的算法,它并没有改变k-means作为硬聚类算法的基本特征。
k 均值有 "soft" 变体。
特别是 fuzzy-c-means(不要问我为什么他们用 c 而不是 k...)
但请注意,由此产生的软分配远非统计概率。它只是一个基于平方距离给出一些相对权重的数字,没有任何强大的统计模型。
如何找到 K-means++ 聚类中的拟合度,以显示输入与每个聚类对齐的百分比。例如,输入 A 在 0.4 的集群 1 中,在 0.6 的集群 2 中。
标准的k-means是hard clustering算法,即没有拟合度;数据点只属于一个集群。这是来自相关 academic paper 的引述(强调已添加):
2.3.1. Hard k-means
[...]
In k-means clustering only bivalent membership degrees of object i to cluster k are allowed: λ[i,k]∈{0,1}. If an object i is a member of a cluster it cannot be a member of any other cluster
K-means++只是一种为k-means选择初始值(种子)的算法,它并没有改变k-means作为硬聚类算法的基本特征。
k 均值有 "soft" 变体。
特别是 fuzzy-c-means(不要问我为什么他们用 c 而不是 k...)
但请注意,由此产生的软分配远非统计概率。它只是一个基于平方距离给出一些相对权重的数字,没有任何强大的统计模型。