在 K-means 中使用数组的问题

Question

请帮忙，我正在运行ning 下面的代码来执行列的 onehotencoder，然后我想将此列传递到我的数据集，然后运行 K-means，但是当我传递信息时，我正在使用 tolist() 来适应列，当运行ning K-means 我有以下问题： ValueError: setting an array element with a sequence.我搜索了一下，但没有找到确定的解决方案...

我正在使用 45 列，起初我放入一个 Dataframe，但如果我有办法放入一个数组，那么每一列都会更有趣。

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=True)
SP_results_one_hot0 = encoder.fit_transform(SP_results_Array[:,0].reshape(-1,1))
SP_results_one_hot1 = encoder.fit_transform(SP_results_Array[:,1].reshape(-1,1))
SP_results_one_hot2 = encoder.fit_transform(SP_results_Array[:,2].reshape(-1,1))
SP_results_one_hot3 = encoder.fit_transform(SP_results_Array[:,3].reshape(-1,1))
SP_results_one_hot4 = encoder.fit_transform(SP_results_Array[:,4].reshape(-1,1))
SP_results_one_hot5 = encoder.fit_transform(SP_results_Array[:,5].reshape(-1,1))
SP_results_one_hot6 = encoder.fit_transform(SP_results_Array[:,6].reshape(-1,1))
SP_results_one_hot7 = encoder.fit_transform(SP_results_Array[:,7].reshape(-1,1))
SP_results_one_hot8 = encoder.fit_transform(SP_results_Array[:,8].reshape(-1,1))
SP_results_one_hot9 = encoder.fit_transform(SP_results_Array[:,9].reshape(-1,1))



SP_results["Division Vendedor"] = SP_results_one_hot0.toarray().tolist()
SP_results["Tiempo en la Empresa"] = SP_results_one_hot1.toarray().tolist()
SP_results["Id Supervisor"] = SP_results_one_hot2.toarray().tolist()
SP_results["ID Region"] = SP_results_one_hot3.toarray().tolist()
SP_results["cargo"] = SP_results_one_hot4.toarray().tolist()
SP_results["address"] = SP_results_one_hot5.toarray().tolist()
SP_results["Idad"] = SP_results_one_hot6.toarray().tolist()
SP_results["sexo"] = SP_results_one_hot7.toarray().tolist()
SP_results["Nacion"] = SP_results_one_hot8.toarray().tolist()
SP_results["Tipo de vendedor"] = SP_results_one_hot9.toarray().tolist()


features =SP_results

from sklearn.cluster import KMeans

    km = KMeans(n_clusters=i)
    clusters = km.fit(features)


ValueError: setting an array element with a sequence.

Answer 1

您可以使用 get_dummies 并定义 columns 列表，而不是单独处理每个 column。它会照顾好它。以下是示例：

import pandas as pd
col_list = ["A","B","C"]
# data is pandas dataframe
data_new = pd.get_dummies(data, col_list)

因为 kmean 需要 input array 格式。你可以这样做。

km = KMeans(n_clusters=i)
# data_new.values will convert the dataframe to array
clusters = km.fit(data_new.values)

希望对您有所帮助。

参考：

在 K-means 中使用数组的问题

Problems to use Array in K-means

python

machine-learning

k-means

data-science