用 MALLET 训练的 LDA 模型的奇怪困惑值

Strange perplexity values of LDA model trained with MALLET

我在部分 Stack Overflow 数据转储上使用 MALLET 训练了 LDA 模型,并对训练和测试数据进行了 70/30 分割。

但是困惑度值很奇怪,因为测试集的困惑度值低于训练集。这怎么可能?我认为该模型更适合训练数据?

我已经仔细检查了我的困惑度计算,但没有发现错误。您知道可能是什么原因吗?

提前致谢!

编辑:

我没有对训练集的 LL/token 值使用控制台输出,而是再次在训练集上使用了评估器。现在这些值似乎是合理的。

有道理。 LL/token 数字给你两个主题分配的概率 观察到的词,而保留概率给你的只是观察到的词的边际概率,求和超过主题。