KMeans 聚类：将结果添加到初始数据集

Question

我在 KMeans 的帮助下为聚类定义了特征：

x = df_1.iloc[:, np.r_[9:12,26:78]]

和运行获得6个簇的代码：

kmeans = KMeans(n_clusters = 6)
kmeans.fit(x)

现在我希望在我的初始数据集中有一个带有数字的列 (df_1("new") =...) ：1 用于集群 1 中的数据组，2 用于集群 1 中的数据组第二组等

我该怎么做？

谢谢！

Answer 1

您似乎在寻找 fit_predict(x)（或 fit(x).predict(x)），returns 每个样本的聚类。

fit_predict(X, y=None, sample_weight=None)
Compute cluster centers and predict cluster index for each sample.
Convenience method; equivalent to calling fit(X) followed by predict(X).

所以我想这样做可以：

df['cluster'] = kmeans.fit_predict(x)

KMeans 聚类：将结果添加到初始数据集

KMeans Clustering: adding results to an initial dataset

python

cluster-analysis

k-means

pandas