从 Python NLTK 中的文件定义自己语言特定的一组停用词
Define own language specific set of stop-words from file in Python NLTK
有没有办法自定义这个
stopWords = set(stopwords.words('english'))
或任何其他方式,这样我就可以在 Python 的 NLTK 中使用带有我的语言停用词的文本文件?
如果我的文本文件是 my_stop_words.txt,我如何告诉 NLTK 使用这组单词而不是为 'english' 设置?
非常感谢!
是的,您可以阅读自己的停用词文件,尽管 NLTK 的停用词支持多种语言。
试试这样的:
with open("stopwords.txt", "r") as f:
new_stopwords = []
for line in f.readlines()
new_stopwords.append(line)
new_stopwords_set = set(new_stopwords)
有没有办法自定义这个
stopWords = set(stopwords.words('english'))
或任何其他方式,这样我就可以在 Python 的 NLTK 中使用带有我的语言停用词的文本文件?
如果我的文本文件是 my_stop_words.txt,我如何告诉 NLTK 使用这组单词而不是为 'english' 设置?
非常感谢!
是的,您可以阅读自己的停用词文件,尽管 NLTK 的停用词支持多种语言。
试试这样的:
with open("stopwords.txt", "r") as f:
new_stopwords = []
for line in f.readlines()
new_stopwords.append(line)
new_stopwords_set = set(new_stopwords)