如何从提取的主题标签创建数据框?
How to create a dataframe from extracted hashtags?
我使用以下代码从推文中提取主题标签。
def find_tags(row_string):
tags = [x for x in row_string if x.startswith('#')]
return tags
df['split'] = df['text'].str.split(' ')
df['hashtags'] = df['split'].apply(lambda row : find_tags(row))
df['hashtags'] = df['hashtags'].apply(lambda x : str(x).replace('\n', ',').replace('\', '').replace("'", ""))
df.drop('split', axis=1, inplace=True)
df
但是,当我使用下面的代码对它们进行计数时,我得到的输出是对每个字符进行计数。
from collections import Counter
d = Counter(df.hashtags.sum())
data = pd.DataFrame([d]).T
data
我得到的输出是:
我认为问题在于我用来提取主题标签的代码。但是我不知道怎么解决这个问题。
在列表理解中将 find_tags
更改为 replace
split
,对于计数值使用 Series.explode
with Series.value_counts
:
def find_tags(row_string):
return [x.replace('\n', ',').replace('\', '').replace("'", "")
for x in row_string.split() if x.startswith('#')]
df['hashtags'] = df['text'].apply(find_tags)
然后:
data = df.hashtags.explode().value_counts().rename_axis('val').reset_index(name='count')
我使用以下代码从推文中提取主题标签。
def find_tags(row_string):
tags = [x for x in row_string if x.startswith('#')]
return tags
df['split'] = df['text'].str.split(' ')
df['hashtags'] = df['split'].apply(lambda row : find_tags(row))
df['hashtags'] = df['hashtags'].apply(lambda x : str(x).replace('\n', ',').replace('\', '').replace("'", ""))
df.drop('split', axis=1, inplace=True)
df
但是,当我使用下面的代码对它们进行计数时,我得到的输出是对每个字符进行计数。
from collections import Counter
d = Counter(df.hashtags.sum())
data = pd.DataFrame([d]).T
data
我得到的输出是:
我认为问题在于我用来提取主题标签的代码。但是我不知道怎么解决这个问题。
在列表理解中将 find_tags
更改为 replace
split
,对于计数值使用 Series.explode
with Series.value_counts
:
def find_tags(row_string):
return [x.replace('\n', ',').replace('\', '').replace("'", "")
for x in row_string.split() if x.startswith('#')]
df['hashtags'] = df['text'].apply(find_tags)
然后:
data = df.hashtags.explode().value_counts().rename_axis('val').reset_index(name='count')