在为它们生成虚拟列之前过滤数据框中的类别
Filter categories in data frame before generating dummy columns for them
我有一个在某些列中包含分类值的数据集(一行可能包含多个类别,由 ,
分隔)。示例:
user hashtags
0 u1 a,b
1 u2 a,c
2 u3 c
我想为这些类别创建虚拟列。我对数据集中出现次数很少的类别也不感兴趣。目前,我正在生成虚拟列,然后删除出现次数很少的虚拟列,如下所示(chunk
是原始数据框):
dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)
# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)
请注意,我还为出现频率较低的类别数量添加了一列。
这种方法有效但速度很慢。我关于如何改进它的想法是首先获取所有唯一类别及其计数,然后删除计数较低的类别,在生成虚拟列之前。
我想问你这个问题:这种方法真的能改善什么吗?它将如何实施? (想到 np.unique
和 return_counts=True
)。另外,有没有更好的方法来解决这个问题?
(注意:数据集已经是 SparseDataFrame
)。
使用 numpy
和布尔切片应该会加快速度。如果这对你有用,请告诉我。
duh = df.hashtags.str.get_dummies(',')
v = duh.values
m = v.sum(0) > 1 # filter out occurrences of 1. change for your needs
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m])
df.join(d2)
user hashtags a c
0 u1 a,b 1 0
1 u2 a,c 1 1
2 u3 c 0 1
我有一个在某些列中包含分类值的数据集(一行可能包含多个类别,由 ,
分隔)。示例:
user hashtags
0 u1 a,b
1 u2 a,c
2 u3 c
我想为这些类别创建虚拟列。我对数据集中出现次数很少的类别也不感兴趣。目前,我正在生成虚拟列,然后删除出现次数很少的虚拟列,如下所示(chunk
是原始数据框):
dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)
# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)
请注意,我还为出现频率较低的类别数量添加了一列。
这种方法有效但速度很慢。我关于如何改进它的想法是首先获取所有唯一类别及其计数,然后删除计数较低的类别,在生成虚拟列之前。
我想问你这个问题:这种方法真的能改善什么吗?它将如何实施? (想到 np.unique
和 return_counts=True
)。另外,有没有更好的方法来解决这个问题?
(注意:数据集已经是 SparseDataFrame
)。
使用 numpy
和布尔切片应该会加快速度。如果这对你有用,请告诉我。
duh = df.hashtags.str.get_dummies(',')
v = duh.values
m = v.sum(0) > 1 # filter out occurrences of 1. change for your needs
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m])
df.join(d2)
user hashtags a c
0 u1 a,b 1 0
1 u2 a,c 1 1
2 u3 c 0 1