为什么在使用规范化数据时在 kmeans 中得到嵌套簇,而在使用非规范化数据时得到非重叠簇?

Why do I get nested clusters in kmeans when I use normalized data while I get non-overlapping clusters when I use non normalized data?

我目前正在学习 IBM 提供的机器学习基础知识课程。老师建完模型后,我发现他没有用归一化数据去拟合模型,而是用常规数据,最后他得到了一个很好的聚类和不重叠的聚类。但是当我尝试使用规范化数据来训练模型时,我遇到了一个灾难,我得到了嵌套的集群,如代码和图像所示。为什么正常化进程会导致这种情况?尽管在数学基础算法中使用归一化总是好的 "as I know"。

代码不使用规范化数据

import numpy as np
import matplotlib.pyplot as plt
%matplotlib  inline
from sklearn.cluster import KMeans
cust_df = pd.read_csv('D:\machine learning\Cust_Segmentation.csv')
cust_df.head()
df = cust_df.drop('Address', axis = 1)
X = df.values[:, 1:]
X = np.nan_to_num(X)
from sklearn.preprocessing import StandardScaler
norm_featur = StandardScaler().fit_transform(X)
clusterNum = 3
kmeans = KMeans(init = 'k-means++', n_clusters = clusterNum, n_init = 12)
kmeans.fit(X)
k_means_labels = kmeans.labels_
df['cluster'] = kmeans.labels_
k_means_cluster_centers = kmeans.cluster_centers_
area = np.pi * ( X[:, 1])**2  
plt.scatter(X[:, 0], X[:, 3], s=area, c=kmeans.labels_.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)
plt.show()

CLUSTERS WITH OUT USING NORMALIZATION

使用规范化数据的代码

import numpy as np
import matplotlib.pyplot as plt
%matplotlib  inline
from sklearn.cluster import KMeans
cust_df = pd.read_csv('D:\machine learning\Cust_Segmentation.csv')
cust_df.head()
df = cust_df.drop('Address', axis = 1)
X = df.values[:, 1:]
X = np.nan_to_num(X)
from sklearn.preprocessing import StandardScaler
norm_feature = StandardScaler().fit_transform(X)
clusterNum = 3
kmeans = KMeans(init = 'k-means++', n_clusters = clusterNum, n_init = 12)
kmeans.fit(norm_feature)
k_means_labels = kmeans.labels_
df['cluster'] = kmeans.labels_
k_means_cluster_centers = kmeans.cluster_centers_
area = np.pi * ( norm_feature[:, 1])**2  
plt.scatter(norm_feature[:, 0], norm_feature[:, 3], s=area, c=kmeans.labels_.astype(np.float), 
alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)
plt.show()

CLUSTER AFTER NORMALIZATION

收入和年龄在这里的比例相当不同。在您的第一个情节中,收入差异约 100 与年龄差异约 10 大致相同。但在 k-means 中,收入差异被认为是 10 倍大。纵轴很容易支配聚类。

这可能是 'wrong',除非您碰巧认为收入变化 1 是 'the same as' 年龄 10 的变化,以找出相似之处。这就是你标准化的原因,它做出了不同的假设:它们同样重要。

你的第二个情节不太合理; k-means 无法生成 'overlapping' 个聚类。问题是您只绘制了您聚集的 4 个(?)维度中的 2 个。您无法绘制 4D 数据,但我怀疑如果您将 PCA 应用于结果以首先减少到 2 维并绘制它,您会看到分离的簇。