如何在 python pandas 上处理用于机器学习的多 select 数据

How to handle multi-select data for machine learning on python pandas

我的一个特点来自于“select 所有适用”形式的问题。这意味着每个条目都有多个值,用逗号分隔,例如:

等等。我需要将其转换为数值数据,以便将其用于我的机器学习模型。类似于 OneHotEncoder 所做的事情。我如何处理这种数据

编辑:

这是我想象中的结果

你想要 Series.str.get_dummies 然后使用 DataFrame.add_prefix 得到你想要的列名:

df['Feature'].str.get_dummies(sep=',').add_prefix('feature_')
   feature_option1  feature_option2  feature_option3  feature_option4
0                1                0                1                0
1                0                0                0                1
2                0                1                1                0