一致性分数 (u_mass) -18 是好是坏？

Coherence score (u_mass) -18 is good or bad?

我看了这个问题（Coherence score 0.4 is good or bad?），发现一致性分数（u_mass）是-14到14。但是当我做实验时，我得到了-18的分数u_mass 和 0.67 c_v。我想知道我的 u_mass 分数为何超出范围 (-14, 14)？

更新：我使用了gensim库，从2到50扫描了主题数。对于u_mass，它从0开始到最低的负点然后回头一点，就像[的倒置版本=18=].

根据 original paper 中提供的 u_mass 一致性分数的数学公式。

如果 u_mass 接近值 0 表示完全一致，它在值 0 的两侧波动取决于所选主题的数量和用于执行主题聚类的数据类型。判断u_mass的最佳方法是绘制u_mass与不同K（主题数）值之间的曲线。选择u_mass的值接近0的K。

你可以参考这个link，它提供了python代码片段来绘制不同K值和c_v之间的曲线。在这里，您可以将 c_v 替换为 u_mass 一致性指标。

希望这个解释对您有所帮助。

我参考了两个来源并发现了相似之处，可能会消除我的疑问： https://www.os3.nl/_media/2017-2018/courses/rp2/p76_report.pdf

https://amp.reddit.com/r/learnmachinelearning/comments/9bcr77/coherence_score_u_mass/

我相信对于u_mass，图形与c_v相比，会有一个相反的趋势倒挂，最低的负点是最好的。当然如果你用gensim.

按照 here (pg 13-14) 所述，这是@Dammio 在他的回答中提到的同一份文件，解释是相反的。在文本中，它说：“根据 UMASS 一致性测量，当 K 增加时，主题的全局一致性会降低。” K 是主题的数量。他们继续说：“为了分析，我们比较模型 K = 6 对于 40 次迭代是局部最小值，对于 10 次迭代哪个表现更好。”在图中，可以清楚地看到它比较了更差的局部最小值和更连贯的局部最大值。这意味着与接受的答案中所说的完全相反。此外，我发现在 Github post 中完全相同：值越高越好：Link to Github answer

一致性分数 (u_mass) -18 是好是坏？

Coherence score (u_mass) -18 is good or bad?

nlp

lsa

lda

topic-modeling

topicmodels