在 nltk python 中创建一组停用词

creating set of stopwords in nltk python

我知道 NLTk 停用词有很多种语言,但如果我想创建自己的停用词集并想在 NLTK 停用词中使用它们,那可行吗?

import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('My own set'))
words=["Don't", 'hesitate','to','ask','questions']
print([word for word in words if word not in stops])

将以space作为分隔符的停用词集存储在文本文件中,例如stop.txt stop_words = open('stop.txt','r').read().split()

这将 return 包含停用词的列表。

另一种或可能是成本较低的方法是创建一个 FILENAME.py 文件,其中包含停用词列表。然后导入 FILENAME.py 并调用停用词列表。这将消除 I/O。