基于特征的主题分布的 Mallet DMR 负概率?

Mallet DMR negative propability for feature-based topic-distribution?

我创建了一个 DMR 主题模型(通过 Java API),它根据文档的出版年份计算主题分布。

结果分布有点混乱,因为有很多负概率。有时整个主题的所有概率都是负值。参见:

Q1:为什么会有负值?给定特征的主题分布的最低可能性应该至少为 0,0 ...我猜?

此外,我构建了一个 LDA 模型,其中 ModelLogLikelihood 似乎是超现实的。我用近 400 万份文档和 20 个主题训练了模型。阿尔法 =1.0 ;贝塔 = 0.01 ; # 迭代 1000;

模型对数可能性的结果: -8.895651309362761E8

Q2:这个值是否正确?还是我做错了什么?

感谢使用DMR! LDA 假设每个文档的主题分布的先验是 Dirichlet 分布。 K维 Dirichlet 的参数是 K non-negative 实数。 DMR-LDA 根据文档的属性生成 document-specific 先验。

Q1:这些不是概率,它们是回归系数。如果您的文档具有特征 2014,主题 1 的 Dirichlet 参数值与表达式 exp(-4.5 + -0.25)。这是默认参数加上 2014 年的偏移量,取幂使其成为 non-negative。对于没有附加功能的默认值,这些值相当于大约 0.01,对于 2014 年相当于 0.008 (78%)。

Q2:这是一个常见的困惑!关键是这是一个log的概率。 log 函数在 1 处穿过 0,因为 0 的任何值都是 1。任何值 less 小于 1 的对数都是负数。由于所有概率都小于或等于 1,因此所有 log 概率均为零或负数。另一件经常让人们感到惊讶的事情是对数概率有多大。假设您有一个语言模型,其中每个单词标记都是独立的,并且给定单词的概率通常约为 1/1000。因此,一个词的对数概率约为 -7.0。一个整体的联合概率 collection 是标记概率的乘积,因此该联合概率的对数是 -7 的总和。我猜你的 collection 有大约 1 亿个代币?