Mallet主题建模-主题键输出参数
Mallet topic modeling - topic keys output parameter
在 MALLET 主题建模中,--output-topic-keys [FILENAME]
选项在每个主题旁边输出一个参数,该参数在 MALLET 站点的教程中称为该主题的 "Dirichlet parameter "。
我想知道这个参数代表什么?是LDA模型中的β吗?如果不是,它是什么,它的含义和用途是什么。
我注意到,当我在生成主题模型时不使用参数优化选项时,此参数在 2.0.7 版和 2.0.8 版中有所不同。我想知道为什么会出现这种差异。
这是版本 2.0.7 的输出
和 2.0.8
我知道每个 运行 的输出都不同,但我只关心这个参数。
如果我没理解错的话,这个参数是alpha,不是beta。
您可以使用标志使用非对称 alpha
--optimize-interval INTEGER
每 INTEGER
次迭代重新估计超参数。
Mallet 中使用的主题模型推理算法涉及为每个单词重复采样新主题分配,同时保持所有其他单词的分配固定。控制此过程的因素是 (1) 当前词类型在每个主题中出现的频率以及 (2) 每个主题在当前文档中出现的次数。平滑参数确保这些值对于任何主题都永远不会为零:第一个因素 beta
,第二个因素 alpha
。
您可以将此处显示的 alpha
参数视为每个主题中添加的 "imaginary" 个单词数。在第一种情况下,主题 0 在每个文档中有 2.5 个虚构的权重词。此参数的默认值最初为 50 / numTopics
。较大的值鼓励模型在文档中具有更均匀的主题分布,较小的值鼓励更多的稀疏性。一般的经验是 50 太大了,5 是更好的默认值。这在 2.0.8 中已更改。
默认设置 alpha
所有主题的权重相等。启用超参数优化后,这些值可能会有所不同。通常你会发现一个topic值比较大的topic会包含"near stopwords",这些在大多数文档中出现频率很高,内容不多。值非常小的主题通常是不寻常且与众不同的文档。中间的话题往往最有趣。
在 MALLET 主题建模中,--output-topic-keys [FILENAME]
选项在每个主题旁边输出一个参数,该参数在 MALLET 站点的教程中称为该主题的 "Dirichlet parameter "。
我想知道这个参数代表什么?是LDA模型中的β吗?如果不是,它是什么,它的含义和用途是什么。
我注意到,当我在生成主题模型时不使用参数优化选项时,此参数在 2.0.7 版和 2.0.8 版中有所不同。我想知道为什么会出现这种差异。
这是版本 2.0.7 的输出
和 2.0.8
我知道每个 运行 的输出都不同,但我只关心这个参数。
如果我没理解错的话,这个参数是alpha,不是beta。
您可以使用标志使用非对称 alpha
--optimize-interval INTEGER
每 INTEGER
次迭代重新估计超参数。
Mallet 中使用的主题模型推理算法涉及为每个单词重复采样新主题分配,同时保持所有其他单词的分配固定。控制此过程的因素是 (1) 当前词类型在每个主题中出现的频率以及 (2) 每个主题在当前文档中出现的次数。平滑参数确保这些值对于任何主题都永远不会为零:第一个因素 beta
,第二个因素 alpha
。
您可以将此处显示的 alpha
参数视为每个主题中添加的 "imaginary" 个单词数。在第一种情况下,主题 0 在每个文档中有 2.5 个虚构的权重词。此参数的默认值最初为 50 / numTopics
。较大的值鼓励模型在文档中具有更均匀的主题分布,较小的值鼓励更多的稀疏性。一般的经验是 50 太大了,5 是更好的默认值。这在 2.0.8 中已更改。
默认设置 alpha
所有主题的权重相等。启用超参数优化后,这些值可能会有所不同。通常你会发现一个topic值比较大的topic会包含"near stopwords",这些在大多数文档中出现频率很高,内容不多。值非常小的主题通常是不寻常且与众不同的文档。中间的话题往往最有趣。