处理机器学习模型 Python 中每个实例具有多个值的特征
Handling features with multiple values per instance in Python for Machine Learning model
我正在尝试处理我的数据集,其中包含一些特征,每个实例具有多个值,如图所示
https://i.stack.imgur.com/D78el.png
我试图用“|”分隔每个值符号来应用 One-Hot 编码技术,但我找不到任何合适的解决方案来解决我的问题
我的想法是将每个多个值保持在一行中或通过另一个词将每个单元格转换为整数列表
也许这就是你想要的:
df = pd.DataFrame(['465','444','465','864|857|850|843'],columns=['genre_ids'])
df
genre_ids
0 465
1 444
2 465
3 864|857|850|843
df['genre_ids'].str.get_dummies(sep='|')
444 465 843 850 857 864
0 0 1 0 0 0 0
1 1 0 0 0 0 0
2 0 1 0 0 0 0
3 0 0 1 1 1 1
我正在尝试处理我的数据集,其中包含一些特征,每个实例具有多个值,如图所示
https://i.stack.imgur.com/D78el.png
我试图用“|”分隔每个值符号来应用 One-Hot 编码技术,但我找不到任何合适的解决方案来解决我的问题
我的想法是将每个多个值保持在一行中或通过另一个词将每个单元格转换为整数列表
也许这就是你想要的:
df = pd.DataFrame(['465','444','465','864|857|850|843'],columns=['genre_ids'])
df
genre_ids
0 465
1 444
2 465
3 864|857|850|843
df['genre_ids'].str.get_dummies(sep='|')
444 465 843 850 857 864
0 0 1 0 0 0 0
1 1 0 0 0 0 0
2 0 1 0 0 0 0
3 0 0 1 1 1 1