从层次聚类中的聚类标签计算 class 的概率?

Computing probability of a class from cluster labels in hierarchical clustering?

我有一个包含两个 类 'yes' 和 'no' 的数据框。使用 scipy 层次聚类,我发现了 2 个聚类。这是我的代码

from scipy.cluster.hierarchy import linkage, dendrogram
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import fcluster
Mdist_matrix = pdist(x_Minmax, metric= 'cityblock')
MSlink = linkage (Mdist_matrix , method = 'single' , metric = 'cityblock')
crsm = fcluster(MClink, k , criterion='maxclust')
arr = np.unique(crsm, return_counts = True)
# print(arr)
dfcluster= dfcluster.copy()
dfcluster['Clabels'] = pd.Series(crsm, index=dfcluster.index)
No = dfcluster[df['status'] == 0]['Clabels'].value_counts()
print("CNO\n",No)
Yes= dfcluster[df['status'] == 1]['Clabels'].value_counts()
print("Cyes\n",Yes)

The output looks like this one

我想计算每个簇的熵和 cluster.How 的纯度 我可以计算每个簇中 'yes' 和 'no' 的概率吗? 我试过这样做 Fastest way to compute entropy in python 但我不清楚。

我回答纯洁。 您的列联矩阵(如果您不熟悉,请参阅 this)如下:

      |   1  |   2 |
------|------|-----|
 CNO  | 7244 | 544 |
------|------|-----|
 CYES | 2136 |  76 |
-------------------+

然后,有一个从列联矩阵计算纯度的公式:

purity_score = np.sum(np.amax(contingency_matrix, axis=0)) / np.sum(contingency_matrix)