使用主题模型,我们应该如何设置一个 "stop words" 列表?

Using Topic Model, how should we set up a "stop words" list?

有一些标准的停用词表,可以从语料库中删除像 "a the of not" 这样的词。但是,我想知道,停止列表是否应该逐个更改?

比如我一个期刊有10K篇文章,那么因为一篇文章的结构,基本上你会在每篇文章中看到"introduction, review, conclusion, page"这样的词。我担心的是:我们应该从我们的语料库中删除这些词吗? (每个文档都有的词?)感谢大家的评论和建议。

我正在处理类似的问题,但与文本分类有关。根据我的经验,拥有一组特定于域的停用词列表以及标准 . 列表。否则,"introduction"、"review" 等词会出现在术语频率矩阵中,如果您尝试分析它的话。它可以通过为这些特定于域的关键字赋予更多权重来误导您的模型。

值得考虑的是,停用词可能不会像您担心的那样影响您的模型。您是否尝试过不删除它们并比较结果?

另请参阅这篇 2017 年的论文:"Pulling Out the Stops: Rethinking Stopword Removal for Topic Models." http://www.cs.cornell.edu/~xanda/stopwords2017.pdf

总而言之,他们说(换句话说)删除停用词对 LDA 模型的质量没有真正的负面影响,如果需要,他们仍然可以在不影响模型的情况下删除。

或者,您始终可以自动删除文档频率高的词,即设置该词可以出现的文档数量的阈值(例如 50%),然后只删除所有出现频率高于停用词的词. 我不认为这会对模型本身产生有意义的影响,但我相信它会加速模型的计算,因为要计算的单词更少。