在 9GB 语料库上通过 MALLET 进行主题建模需要多少时间

How much time for a topic modeling via MALLET on 9GB corpus

我想在 9GB 语料库上做 LDA 主题建模。计划是使用 MALLET 对 LDA 模型进行 1000 次迭代和 100 个主题的训练,在 200 次迭代老化期后每 10 次迭代优化超参数。 我在 64 位 Win8 上工作,计算机有 16GB RAM,Intel® Core™ i7-4720HQ 处理器。 谁能告诉我这需要多少时间?我们谈论的是几小时还是几天? 这是我在这里问的第一个问题,所以如果我跳过了一些重要信息,请告诉我。

具体时间会根据语料库的复杂程度而有所不同。随着模型开始更好地拟合,采样将开始更快,因为不确定性将下降。我猜大概一天就能买到一个好的模型。

导入数据可能是最具挑战性的部分。 "bulkload" 命令旨在减少包含每行一个文档的大文件的导入的内存占用。此命令还将根据词频进行词汇修剪。

对于具有超参数优化的这种规模的语料库,请考虑使用更多主题。使用 500 个主题可能不会超过 100 个主题,出于同样的原因,随着模型拟合得更好,采样速度会更快。

所以,为了以防万一有人感兴趣,最后我有 运行 主题建模(如问题中的详细信息),并且花了将近两天的时间才完成(1 天 20 小时)。