Mallet 主题建模 API - 如何确定所需的间隔数或最适合优化的间隔数?

Mallet Topic Modelling API - How to decide number of intervals needed or best for optimization?

抱歉,我是 NLP 领域的初学者,正如标题所说,Mallet 中优化的最佳区间是多少 API?我还想知道它是否与 iterations/topics/corpus 等

的数量相关或相关

优化间隔是超参数更新之间的迭代次数。 20 到 50 之间的值似乎效果很好,但我没有做过任何系统的测试。需要注意的一种可能的故障模式是太多的优化轮次可能导致不稳定,alpha 超参数变为零。

这是一篇有趣的博客 post,其中 Christof Schöch

进行了一些系统测试

Topic Modeling with MALLET: Hyperparameter Optimization

长话短说:

It all depends on the project’s aims. But it is important that we are aware of the massive effects Mallet’s inconspicuous parameter of the hyperparameter optimization can have on the resulting models.

编辑:作者没有修复随机种子。所以结果可以用 MALLET 的随机初始化来解释。