一致性分数 (u_mass) -18 是好是坏?

Coherence score (u_mass) -18 is good or bad?

我看了这个问题(Coherence score 0.4 is good or bad?),发现一致性分数(u_mass)是-14到14。但是当我做实验时,我得到了-18的分数u_mass 和 0.67 c_v。我想知道我的 u_mass 分数为何超出范围 (-14, 14)?

更新:我使用了gensim库,从2到50扫描了主题数。对于u_mass,它从0开始到最低的负点然后回头一点,就像[的倒置版本=18=].

根据 original paper 中提供的 u_mass 一致性分数的数学公式。

如果 u_mass 接近值 0 表示完全一致,它在值 0 的两侧波动取决于所选主题的数量和用于执行主题聚类的数据类型。判断u_mass的最佳方法是绘制u_mass与不同K(主题数)值之间的曲线。选择u_mass的值接近0的K。

你可以参考这个link,它提供了python代码片段来绘制不同K值和c_v之间的曲线。在这里,您可以将 c_v 替换为 u_mass 一致性指标。

希望这个解释对您有所帮助。

我参考了两个来源并发现了相似之处,可能会消除我的疑问: https://www.os3.nl/_media/2017-2018/courses/rp2/p76_report.pdf

https://amp.reddit.com/r/learnmachinelearning/comments/9bcr77/coherence_score_u_mass/

我相信对于u_mass,图形与c_v相比,会有一个相反的趋势倒挂,最低的负点是最好的。当然如果你用gensim.

按照 here (pg 13-14) 所述,这是@Dammio 在他的回答中提到的同一份文件,解释是相反的。在文本中,它说:“根据 UMASS 一致性测量,当 K 增加时,主题的全局一致性会降低。” K 是主题的数量。他们继续说:“为了分析,我们比较模型 K = 6 对于 40 次迭代是局部最小值,对于 10 次迭代 哪个表现更好。”在图中,可以清楚地看到它比较了更差的局部最小值和更连贯的局部最大值。这意味着与接受的答案中所说的完全相反。此外,我发现在 Github post 中完全相同:值越高越好:Link to Github answer