如何轻松地从列表列表（或 pandas.Series 个列表）中提取特征？

Question

问题

我在 python 中有以下 pandas 系列：

df.Categories

输出：

01                   Crime, Reality-TV
02               Game-Show, Reality-TV
03                          Reality-TV

可以认为是一系列列表：

01                   [Crime, Reality-TV]
02               [Game-Show, Reality-TV]
03                          [Reality-TV]

我想做什么

我想以某种方式从中提取特征，例如：

1 0 1
0 1 1
0 0 1

第一列表示 "Crime" 类别，第二列表示 "Game-Show" 类别，第三列表示 "Reality-TV" 类别。

Answer 1

您可以使用 get_dummies 假设该列是没有列表的列

new_df = df['Categories'].str.get_dummies(', ') 

    Crime   Game-Show   Reality-TV
0   1       0           1
1   0       1           1
2   0       0           1

我们这里使用的是series.get_dummies。它通过 sep 和 returns 一帧 dummy/indicator 变量拆分系列中的每个字符串。它方便地为字符串提供分隔符参数，默认为“|”。

如何轻松地从列表列表（或 pandas.Series 个列表）中提取特征？

How to easily extract features from a list of lists (or pandas.Series of lists)?

python

list

feature-extraction

pandas