在 Gensim 中添加停用词
Add stop words in Gensim
感谢您的光临!我有一个关于附加停用词的快速问题。我的数据集中出现了 select 个单词,我希望可以将它们添加到 gensims 停用词列表中。我看过很多使用 nltk 的例子,我希望有一种方法可以在 gensim 中做同样的事情。我将 post 我的代码如下:
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return result
虽然 gensim.parsing.preprocessing.STOPWORDS
是为了您的方便而预先定义的,并且恰好是一个 frozenset
,所以它不能直接添加到,但您可以轻松地制作一个包含两者的更大的集合这些话和你的补充。例如:
from gensim.parsing.preprocessing import STOPWORDS
my_stop_words = STOPWORDS.union(set(['mystopword1', 'mystopword2']))
然后在后续的停用词删除代码中使用更大的新 my_stop_words
。 (gensim
的 simple_preprocess()
函数不会自动删除停用词。)
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
newStopWords = ['stopword1','stopword2']
if token not in gensim.parsing.preprocessing.STOPWORDS and token not in newStopWords and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return result
感谢您的光临!我有一个关于附加停用词的快速问题。我的数据集中出现了 select 个单词,我希望可以将它们添加到 gensims 停用词列表中。我看过很多使用 nltk 的例子,我希望有一种方法可以在 gensim 中做同样的事情。我将 post 我的代码如下:
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return result
虽然 gensim.parsing.preprocessing.STOPWORDS
是为了您的方便而预先定义的,并且恰好是一个 frozenset
,所以它不能直接添加到,但您可以轻松地制作一个包含两者的更大的集合这些话和你的补充。例如:
from gensim.parsing.preprocessing import STOPWORDS
my_stop_words = STOPWORDS.union(set(['mystopword1', 'mystopword2']))
然后在后续的停用词删除代码中使用更大的新 my_stop_words
。 (gensim
的 simple_preprocess()
函数不会自动删除停用词。)
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
newStopWords = ['stopword1','stopword2']
if token not in gensim.parsing.preprocessing.STOPWORDS and token not in newStopWords and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return result