Kmeans 聚类非数字列

Kmeans clustering non-numeric column

enter image description here

这是我的数据集

>   0   1   2   3   4   5
> 
> 0 2020    14446999.0  300340.0    300287.0    2.0 お笑い
> 1 2020    12725811.0  300451.0    300445.0    2.0 格闘技
> 2 2020    15894610.0  300452.0    300451.0    3.0 ボクシング
> 3 2020    16334176.0  300445.0    0.0 1.0 スポーツ
> 4 2020    12725811.0  300451.0    300445.0    2.0 格闘技

大家好。

我有一个看起来像这样的数据集,我希望我可以聚类包含 people.like 4 custering/groups 兴趣的第 5 列,以查看人们的主要兴趣。

第一列是日期,第三列和第四列是ID。 问题是我在kaggle中搜索了很多例子。似乎所有 Kmeans 聚类示例都基于数字数据的数据集。我的第 5 列是日语单词而不是英语。这让我很不高兴。我该怎么做,或者任何人都可以为我分享一个 link 示例?提前致谢。

您可以使用 pd.factorize 将 str 列转换为数字:

输入数据帧

>>> df
      1           2         3         4    5      6
0  2020  14446999.0  300340.0  300287.0  2.0    お笑い
1  2020  12725811.0  300451.0  300445.0  2.0    格闘技
2  2020  15894610.0  300452.0  300451.0  3.0  ボクシング
3  2020  16334176.0  300445.0       0.0  1.0   スポーツ
4  2020  12725811.0  300451.0  300445.0  2.0    格闘技
df[6] = pd.factorize(df[6])[0]

输出结果

>>> df
      1           2         3         4    5  6
0  2020  14446999.0  300340.0  300287.0  2.0  0
1  2020  12725811.0  300451.0  300445.0  2.0  1
2  2020  15894610.0  300452.0  300451.0  3.0  2
3  2020  16334176.0  300445.0       0.0  1.0  3
4  2020  12725811.0  300451.0  300445.0  2.0  1