如何轻松地从列表列表(或 pandas.Series 个列表)中提取特征?
How to easily extract features from a list of lists (or pandas.Series of lists)?
问题
我在 python 中有以下 pandas 系列:
df.Categories
输出:
01 Crime, Reality-TV
02 Game-Show, Reality-TV
03 Reality-TV
可以认为是一系列列表:
01 [Crime, Reality-TV]
02 [Game-Show, Reality-TV]
03 [Reality-TV]
我想做什么
我想以某种方式从中提取特征,例如:
1 0 1
0 1 1
0 0 1
第一列表示 "Crime" 类别,第二列表示 "Game-Show" 类别,第三列表示 "Reality-TV" 类别。
您可以使用 get_dummies 假设该列是没有列表的列
new_df = df['Categories'].str.get_dummies(', ')
Crime Game-Show Reality-TV
0 1 0 1
1 0 1 1
2 0 0 1
我们这里使用的是series.get_dummies。它通过 sep 和 returns 一帧 dummy/indicator 变量拆分系列中的每个字符串。它方便地为字符串提供分隔符参数,默认为“|”。
问题
我在 python 中有以下 pandas 系列:
df.Categories
输出:
01 Crime, Reality-TV
02 Game-Show, Reality-TV
03 Reality-TV
可以认为是一系列列表:
01 [Crime, Reality-TV]
02 [Game-Show, Reality-TV]
03 [Reality-TV]
我想做什么
我想以某种方式从中提取特征,例如:
1 0 1
0 1 1
0 0 1
第一列表示 "Crime" 类别,第二列表示 "Game-Show" 类别,第三列表示 "Reality-TV" 类别。
您可以使用 get_dummies 假设该列是没有列表的列
new_df = df['Categories'].str.get_dummies(', ')
Crime Game-Show Reality-TV
0 1 0 1
1 0 1 1
2 0 0 1
我们这里使用的是series.get_dummies。它通过 sep 和 returns 一帧 dummy/indicator 变量拆分系列中的每个字符串。它方便地为字符串提供分隔符参数,默认为“|”。