Kmeans 聚类非数字列
Kmeans clustering non-numeric column
enter image description here
这是我的数据集
> 0 1 2 3 4 5
>
> 0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
> 1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
> 2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
> 3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
> 4 2020 12725811.0 300451.0 300445.0 2.0 格闘技
大家好。
我有一个看起来像这样的数据集,我希望我可以聚类包含 people.like 4 custering/groups 兴趣的第 5 列,以查看人们的主要兴趣。
第一列是日期,第三列和第四列是ID。
问题是我在kaggle中搜索了很多例子。似乎所有 Kmeans 聚类示例都基于数字数据的数据集。我的第 5 列是日语单词而不是英语。这让我很不高兴。我该怎么做,或者任何人都可以为我分享一个 link 示例?提前致谢。
您可以使用 pd.factorize
将 str 列转换为数字:
输入数据帧
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
4 2020 12725811.0 300451.0 300445.0 2.0 格闘技
df[6] = pd.factorize(df[6])[0]
输出结果
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 0
1 2020 12725811.0 300451.0 300445.0 2.0 1
2 2020 15894610.0 300452.0 300451.0 3.0 2
3 2020 16334176.0 300445.0 0.0 1.0 3
4 2020 12725811.0 300451.0 300445.0 2.0 1
enter image description here
这是我的数据集
> 0 1 2 3 4 5
>
> 0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
> 1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
> 2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
> 3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
> 4 2020 12725811.0 300451.0 300445.0 2.0 格闘技
大家好。
我有一个看起来像这样的数据集,我希望我可以聚类包含 people.like 4 custering/groups 兴趣的第 5 列,以查看人们的主要兴趣。
第一列是日期,第三列和第四列是ID。 问题是我在kaggle中搜索了很多例子。似乎所有 Kmeans 聚类示例都基于数字数据的数据集。我的第 5 列是日语单词而不是英语。这让我很不高兴。我该怎么做,或者任何人都可以为我分享一个 link 示例?提前致谢。
您可以使用 pd.factorize
将 str 列转换为数字:
输入数据帧
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
4 2020 12725811.0 300451.0 300445.0 2.0 格闘技
df[6] = pd.factorize(df[6])[0]
输出结果
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 0
1 2020 12725811.0 300451.0 300445.0 2.0 1
2 2020 15894610.0 300452.0 300451.0 3.0 2
3 2020 16334176.0 300445.0 0.0 1.0 3
4 2020 12725811.0 300451.0 300445.0 2.0 1