如何在 Mallet 中获取主题词的概率

how to get probability of words of topics in Mallet

我在 mallet 中使用 LDA 来探索我的数据。我对 运行 没有任何问题,只是我需要有顶部词的概率(比如 20 个词)

我使用这个查询:

bin\mallet train-topics  --input tutorial.mallet  --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz  --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt

我不知道单词概率的查询是什么。

您应该可以使用 --topic-word-weights-file FILENAME 选项。

输出文件的格式是

topic [tab] word [tab] weight

其中 weight 与主题中单词的概率成正比。除以一个主题的权重总和得到归一化概率。

迟到的答案,但谁知道呢,它可能会对其他人有所帮助。

MALLET 2.0.8 有一个新功能可以输出一个非常有趣的诊断文件,其中包含每个主题及其热门词的一堆指标。单词概率就是其中之一。

只需将 --diagnostics-file FILENAME 添加到您的 train-topics 命令中。

每个主题描述的字数与“--num-top-words”定义的字数相同。

这里是 link 的详细文档:http://mallet.cs.umass.edu/diagnostics.php。如果您不想重新训练您的主题,您仍然可以使用 "state" 文件输出诊断文件。 link.

中描述了一切