使用 Mallet 进行主题建模 - 主题键输出参数

Topic Modeling with Mallet - topic keys output parameter

我对这里提出的问题有一个后续问题：

我希望我仍然能得到关于这个主题的更详细的解释，因为我无法理解输出文件中的这些数字。

输出数字的总和可以告诉我们什么？例如，有 20 个主题和 2000 次迭代的优化值 20，输出的总和约为 2。使用相同的语料库，但 15 topics/1000 iterations/optimization 10 结果为 0,77 和10 topics/1000 iterations/optimization 10 是 0,72。这是什么意思？它甚至意味着什么吗？

此外，这些人将这些结果称为参数，但根据我的理解，参数是优化间隔而不是输出中的结果。那么在输出中引用结果的正确方法是什么？话题频率？它是某种东西的百分比吗？我错了哪一部分？

你是对的，参数在这里被用来表示两个不同的东西。

统计模型的参数是确定该模型属性的值。在这种情况下，他们确定我们希望更频繁地出现哪些主题，以及我们对此有多大信心。在某些情况下，这些由用户设置，在其他情况下，它们由推理算法设置。
推理算法的参数是确定我们设置统计模型参数的过程的设置。

另一个令人困惑的地方是，当用户明确设置模型参数时，Mallet 使用与算法设置相同的界面。

您看到的数字是 Dirichlet 分布的参数，它描述了我们先前对文档中主题组合的期望。你可以认为它有两部分：比例和大小。如果您重新调整数字以加起来为 1.0，则生成的比例会告诉您模型对哪些主题出现频率最高的猜测。数字的实际总和（幅度）告诉您模型对这是您将在文档中看到的实际比例的信心。值越小表示可变性越大。

对于您所看到的数字的一个可能解释（请将其视为原始推测）是 20 个主题模型具有更大的灵活性来适应一致的主题，因此有大约三倍的信心文档中经常出现的主题。随着主题数量的减少，主题的特异性也会下降，因此在任何给定文档中，任何特定主题都可能很大。

使用 Mallet 进行主题建模 - 主题键输出参数

Topic Modeling with Mallet - topic keys output parameter

mallet

topic-modeling