如何在 python pandas 上处理用于机器学习的多 select 数据
How to handle multi-select data for machine learning on python pandas
我的一个特点来自于“select 所有适用”形式的问题。这意味着每个条目都有多个值,用逗号分隔,例如:
等等。我需要将其转换为数值数据,以便将其用于我的机器学习模型。类似于 OneHotEncoder 所做的事情。我如何处理这种数据
编辑:
这是我想象中的结果
你想要 Series.str.get_dummies
然后使用 DataFrame.add_prefix
得到你想要的列名:
df['Feature'].str.get_dummies(sep=',').add_prefix('feature_')
feature_option1 feature_option2 feature_option3 feature_option4
0 1 0 1 0
1 0 0 0 1
2 0 1 1 0
我的一个特点来自于“select 所有适用”形式的问题。这意味着每个条目都有多个值,用逗号分隔,例如:
等等。我需要将其转换为数值数据,以便将其用于我的机器学习模型。类似于 OneHotEncoder 所做的事情。我如何处理这种数据
编辑:
这是我想象中的结果
你想要 Series.str.get_dummies
然后使用 DataFrame.add_prefix
得到你想要的列名:
df['Feature'].str.get_dummies(sep=',').add_prefix('feature_')
feature_option1 feature_option2 feature_option3 feature_option4
0 1 0 1 0
1 0 0 0 1
2 0 1 1 0