使 Mallet 主题建模稳定

make Mallet topic-modeling stable

我使用的是mallet主题建模工具,在稳定方面遇到了一些困难(我得到的主题似乎不太符合逻辑)。

我学习了你的教程和那个教程:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet 我对此有一些疑问:

  1. 是否有一些最佳实践可以让该模型发挥作用?除了优化命令(什么是一个好的数字)?什么是迭代命令的好数字?
  2. 我使用 import dir 命令导入我的数据。在那个目录中有我的文件。这些文件包含换行的文本还是很长的一行是否重要?
  3. 我了解了 hLDA 模型。当我尝试 运行 时,我看到唯一的输出是 state.txt 输出,但不是很清楚。我期望像主题建模模型 (topic_keys.txt, doc_topics.txt) 这样的输出,我怎样才能得到它们?
  4. 我什么时候应该使用 hLDA 而不是主题建模?

非常感谢您的帮助!

一些关于主题建模的良好实践的参考资料是 The Care and Feeding of Topic Models with Jordan Boyd-Graber and Dave Newman and Applied Topic Modeling 与 Jordan Boyd-Graber 和胡月宁。

对于超参数优化--optimize-interval 20 --optimize-burn-in 50应该没问题吧,好像对具体值不是很敏感。 Gibbs 采样的收敛性很难评估,默认的 1000 次迭代应解释为 "a number large enough that it's probably ok" 而不是特定值。

如果您要从目录中的文件中读取单个文档,行并不重要。如果在删除停用词之前文档的长度超过大约 1000 个标记,请考虑将它们分成更小的部分。

hLDA 只是因为人们似乎需要它才包含在内,我不推荐它用于任何目的。