基于特征的主题分布的 Mallet DMR 负概率？

Mallet DMR negative propability for feature-based topic-distribution?

我创建了一个 DMR 主题模型（通过 Java API），它根据文档的出版年份计算主题分布。

结果分布有点混乱，因为有很多负概率。有时整个主题的所有概率都是负值。参见：

Q1:为什么会有负值？给定特征的主题分布的最低可能性应该至少为 0,0 ...我猜？

此外，我构建了一个 LDA 模型，其中 ModelLogLikelihood 似乎是超现实的。我用近 400 万份文档和 20 个主题训练了模型。阿尔法 =1.0 ;贝塔 = 0.01 ; # 迭代 1000;

模型对数可能性的结果： -8.895651309362761E8

Q2:这个值是否正确？还是我做错了什么？

感谢使用DMR！ LDA 假设每个文档的主题分布的先验是 Dirichlet 分布。 K维 Dirichlet 的参数是 K non-negative 实数。 DMR-LDA 根据文档的属性生成 document-specific 先验。

Q1：这些不是概率，它们是回归系数。如果您的文档具有特征 2014，主题 1 的 Dirichlet 参数值与表达式 exp(-4.5 + -0.25)。这是默认参数加上 2014 年的偏移量，取幂使其成为 non-negative。对于没有附加功能的默认值，这些值相当于大约 0.01，对于 2014 年相当于 0.008 (78%)。

Q2：这是一个常见的困惑！关键是这是一个log的概率。 log 函数在 1 处穿过 0，因为 0 的任何值都是 1。任何值 less 小于 1 的对数都是负数。由于所有概率都小于或等于 1，因此所有 log 概率均为零或负数。另一件经常让人们感到惊讶的事情是对数概率有多大。假设您有一个语言模型，其中每个单词标记都是独立的，并且给定单词的概率通常约为 1/1000。因此，一个词的对数概率约为 -7.0。一个整体的联合概率 collection 是标记概率的乘积，因此该联合概率的对数是 -7 的总和。我猜你的 collection 有大约 1 亿个代币？

基于特征的主题分布的 Mallet DMR 负概率？

Mallet DMR negative propability for feature-based topic-distribution?

java

machine-learning

mallet

topic-modeling