如何正确解释 gensim 主题?

How to interpret gensim topics properly?

我想这可能以前已经讨论过了,但不知怎么的我找不到答案,所以就在这里。

以下是一些客户调查中使用 gensim lsi 生成的主题。我的问题是:

  1. 单词前面的减号和加号是什么意思?
  2. 这里我生成了 5 个主题,我本可以生成更多。我如何确定最佳主题数量?例如,也许在统计上第三个主题之后其他一切都将变得微不足道。

如有任何建议,我们将不胜感激。

0.527*"interest" + 0.475*"lower" + 0.376*"rates" + 0.338*"rate" + 0.324*"good" + 0.257*"service" 0.671*"good" + 0.586*"service" + -0.254*"interest" + -0.251*"lower" + -0.159*"rate" + -0.150*"rates" 0.600*"great" + 0.351*"easy" + 0.337*"rewards" + 0.242*"use" + -0.167*"service" + 0.160*"like" -0.503*"rates" + 0.499*"rate" + -0.39*"great" + 0.364*"high" + -0.289*"lower" + 0.167*"easy" -0.608*"great" + 0.362*"easy" + -0.303*"rate" + 0.275*"rates" + 0.244*"use" + -0.227*"high"

LSI 背后的主要机制是术语文档矩阵 (TDM) 上的奇异值分解 (SVD)。我不会在这里详细介绍,但如果您愿意,可以阅读 SVD on wikipedia

生成的主题是术语的线性组合。选择这些线性组合(使用 SVD)来创建 TDM 的 'low-rank approximation'。

单词权重的大小可以被认为是重要的:它们在逼近原始 TDM 时有多重要。或者,更松散地说,该主题在描述 TDM 所基于的语料库中的重要性。

权重的符号仅相对于彼此重要(例如,您可以将所有内容乘以 -1,如果您正确地重新解释线性组合,您将得到相同的解释)。如果每个文档都可以根据每个主题的程度进行评级,那么该符号会告诉您相关词以何种方式推动文档。例如,在您提供的输出中,单词 'interest' 和 'rates' 出现次数较多的文档在第二个主题中的排名应该较低。另一方面,'good' 和 'service' 出现次数较多的文档在第二个主题中应该很高。

至于确定最佳主题数,它是上下文特定的,但主要取决于语料库的大小。以下是一些一般准则(摘自 this answer):

As a general rule, fewer dimensions allow for broader comparisons of the concepts contained in a collection of text, while a higher number of dimensions enable more specific (or more relevant) comparisons of concepts. The actual number of dimensions that can be used is limited by the number of documents in the collection. Research has demonstrated that around 300 dimensions will usually provide the best results with moderate-sized document collections (hundreds of thousands of documents) and perhaps 400 dimensions for larger document collections (millions of documents). However, recent studies indicate that 50-1000 dimensions are suitable depending on the size and nature of the document collection.