如何使用自定义停用词词典从数据框列中删除英语停用词
How do I remove english stop words from a dataframe column using a custom dictionary of stop words
我正在编写一个函数,它将推文的数据帧 (df) 作为输入。我需要标记推文并删除停用词并将此输出添加到新列。除了 numpy 和 pandas,我不能导入任何东西。
停用词在字典中如下:
stop_words_dict = {
'stopwords':[
'where', 'done', 'if', 'before', 'll', 'very', 'keep', 'something', 'nothing', 'thereupon',
'may', 'why', '’s', 'therefore', 'you', 'with', 'towards', 'make', 'really', 'few', 'former',
'during', 'mine', 'do', 'would', 'of', 'off', 'six', 'yourself', 'becoming', 'through',
'seeming', 'hence', 'us', 'anywhere....}
这就是我试图做的:删除停用词的函数
def stop_words_remover(df):
stop_words = list(stop_words_dict.values())
df["Without Stop Words"] = df["Tweets"].str.lower().str.split()
df["Without Stop Words"] = df["Without Stop Words"].apply(lambda x: [word for word in x if word not in stop_words])
return df
如果这是我的输入:
[@bongadlulane, please, send, an, email, to,]
这是预期的输出:
[@bongadlulane, send, email, mediadesk@eskom.c]
但我一直返回前者而不是后者
如有任何见解,我们将不胜感激。谢谢
您的问题出在这一行:
stop_words = list(stop_words_dict.values())
这个returns一个停用词列表
替换为:
stop_words = stop_words_dict['stopwords']
我正在编写一个函数,它将推文的数据帧 (df) 作为输入。我需要标记推文并删除停用词并将此输出添加到新列。除了 numpy 和 pandas,我不能导入任何东西。
停用词在字典中如下:
stop_words_dict = {
'stopwords':[
'where', 'done', 'if', 'before', 'll', 'very', 'keep', 'something', 'nothing', 'thereupon',
'may', 'why', '’s', 'therefore', 'you', 'with', 'towards', 'make', 'really', 'few', 'former',
'during', 'mine', 'do', 'would', 'of', 'off', 'six', 'yourself', 'becoming', 'through',
'seeming', 'hence', 'us', 'anywhere....}
这就是我试图做的:删除停用词的函数
def stop_words_remover(df):
stop_words = list(stop_words_dict.values())
df["Without Stop Words"] = df["Tweets"].str.lower().str.split()
df["Without Stop Words"] = df["Without Stop Words"].apply(lambda x: [word for word in x if word not in stop_words])
return df
如果这是我的输入:
[@bongadlulane, please, send, an, email, to,]
这是预期的输出:
[@bongadlulane, send, email, mediadesk@eskom.c]
但我一直返回前者而不是后者
如有任何见解,我们将不胜感激。谢谢
您的问题出在这一行:
stop_words = list(stop_words_dict.values())
这个returns一个停用词列表
替换为:
stop_words = stop_words_dict['stopwords']