处理机器学习模型 Python 中每个实例具有多个值的特征

Question

我正在尝试处理我的数据集，其中包含一些特征，每个实例具有多个值，如图所示
https://i.stack.imgur.com/D78el.png
我试图用“|”分隔每个值符号来应用 One-Hot 编码技术，但我找不到任何合适的解决方案来解决我的问题
我的想法是将每个多个值保持在一行中或通过另一个词将每个单元格转换为整数列表

Answer 1

也许这就是你想要的：

df = pd.DataFrame(['465','444','465','864|857|850|843'],columns=['genre_ids'])
df

         genre_ids
0              465
1              444
2              465
3  864|857|850|843

df['genre_ids'].str.get_dummies(sep='|')

   444  465  843  850  857  864
0    0    1    0    0    0    0
1    1    0    0    0    0    0
2    0    1    0    0    0    0
3    0    0    1    1    1    1

处理机器学习模型 Python 中每个实例具有多个值的特征

Handling features with multiple values per instance in Python for Machine Learning model

machine-learning

series

pandas