为什么在使用规范化数据时在 kmeans 中得到嵌套簇，而在使用非规范化数据时得到非重叠簇？

Question

我目前正在学习 IBM 提供的机器学习基础知识课程。老师建完模型后，我发现他没有用归一化数据去拟合模型，而是用常规数据，最后他得到了一个很好的聚类和不重叠的聚类。但是当我尝试使用规范化数据来训练模型时，我遇到了一个灾难，我得到了嵌套的集群，如代码和图像所示。为什么正常化进程会导致这种情况？尽管在数学基础算法中使用归一化总是好的 "as I know"。

代码不使用规范化数据

import numpy as np
import matplotlib.pyplot as plt
%matplotlib  inline
from sklearn.cluster import KMeans
cust_df = pd.read_csv('D:\machine learning\Cust_Segmentation.csv')
cust_df.head()
df = cust_df.drop('Address', axis = 1)
X = df.values[:, 1:]
X = np.nan_to_num(X)
from sklearn.preprocessing import StandardScaler
norm_featur = StandardScaler().fit_transform(X)
clusterNum = 3
kmeans = KMeans(init = 'k-means++', n_clusters = clusterNum, n_init = 12)
kmeans.fit(X)
k_means_labels = kmeans.labels_
df['cluster'] = kmeans.labels_
k_means_cluster_centers = kmeans.cluster_centers_
area = np.pi * ( X[:, 1])**2  
plt.scatter(X[:, 0], X[:, 3], s=area, c=kmeans.labels_.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)
plt.show()

CLUSTERS WITH OUT USING NORMALIZATION

使用规范化数据的代码

import numpy as np
import matplotlib.pyplot as plt
%matplotlib  inline
from sklearn.cluster import KMeans
cust_df = pd.read_csv('D:\machine learning\Cust_Segmentation.csv')
cust_df.head()
df = cust_df.drop('Address', axis = 1)
X = df.values[:, 1:]
X = np.nan_to_num(X)
from sklearn.preprocessing import StandardScaler
norm_feature = StandardScaler().fit_transform(X)
clusterNum = 3
kmeans = KMeans(init = 'k-means++', n_clusters = clusterNum, n_init = 12)
kmeans.fit(norm_feature)
k_means_labels = kmeans.labels_
df['cluster'] = kmeans.labels_
k_means_cluster_centers = kmeans.cluster_centers_
area = np.pi * ( norm_feature[:, 1])**2  
plt.scatter(norm_feature[:, 0], norm_feature[:, 3], s=area, c=kmeans.labels_.astype(np.float), 
alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)
plt.show()

CLUSTER AFTER NORMALIZATION

Answer 1

收入和年龄在这里的比例相当不同。在您的第一个情节中，收入差异约 100 与年龄差异约 10 大致相同。但在 k-means 中，收入差异被认为是 10 倍大。纵轴很容易支配聚类。

这可能是 'wrong'，除非您碰巧认为收入变化 1 是 'the same as' 年龄 10 的变化，以找出相似之处。这就是你标准化的原因，它做出了不同的假设：它们同样重要。

你的第二个情节不太合理； k-means 无法生成 'overlapping' 个聚类。问题是您只绘制了您聚集的 4 个（？）维度中的 2 个。您无法绘制 4D 数据，但我怀疑如果您将 PCA 应用于结果以首先减少到 2 维并绘制它，您会看到分离的簇。

为什么在使用规范化数据时在 kmeans 中得到嵌套簇，而在使用非规范化数据时得到非重叠簇？

Why do I get nested clusters in kmeans when I use normalized data while I get non-overlapping clusters when I use non normalized data?

python

machine-learning

normalization

k-means

scikit-learn