使用 Mallet 进行主题建模 - 主题键输出参数

Topic Modeling with Mallet - topic keys output parameter

我对这里提出的问题有一个后续问题:

我希望我仍然能得到关于这个主题的更详细的解释,因为我无法理解输出文件中的这些数字。

输出数字的总和可以告诉我们什么?例如,有 20 个主题和 2000 次迭代的优化值 20,输出的总和约为 2。使用相同的语料库,但 15 topics/1000 iterations/optimization 10 结果为 0,77 和10 topics/1000 iterations/optimization 10 是 0,72。这是什么意思?它甚至意味着什么吗?

此外,这些人将这些结果称为参数,但根据我的理解,参数是优化间隔而不是输出中的结果。那么在输出中引用结果的正确方法是什么?话题频率?它是某种东西的百分比吗?我错了哪一部分?

你是对的,参数在这里被用来表示两个不同的东西。

  • 统计模型的参数是确定该模型属性的值。在这种情况下,他们确定我们希望更频繁地出现哪些主题,以及我们对此有多大信心。在某些情况下,这些由用户设置,在其他情况下,它们由推理算法设置。

  • 推理算法的参数是确定我们设置统计模型参数的过程的设置。

另一个令人困惑的地方是,当用户明确设置模型参数时,Mallet 使用与算法设置相同的界面。

您看到的数字是 Dirichlet 分布的参数,它描述了我们先前对文档中主题组合的期望。你可以认为它有两部分:比例和大小。如果您重新调整数字以加起来为 1.0,则生成的比例会告诉您模型对哪些主题出现频率最高的猜测。数字的实际总和(幅度)告诉您模型对这是您将在文档中看到的实际比例的信心。值越小表示可变性越大。

对于您所看到的数字的一个可能解释(请将其视为原始推测)是 20 个主题模型具有更大的灵活性来适应一致的主题,因此有大约三倍的信心文档中经常出现的主题。随着主题数量的减少,主题的特异性也会下降,因此在任何给定文档中,任何特定主题都可能很大。