在多个语料库上使用 Gensim 进行潜在狄利克雷分配

Question

我有两个关于 LDA 的 gensim 用法的问题。

1) 我如何使用一个语料库创建模型，保存它并可能稍后通过在另一个语料库上训练模型来扩展它？可能吗？

2) LDA 是否可以用于对未见过的文档进行分类，或者需要将其包含在语料库中重新创建模型？有没有一种在线方法可以做到这一点并即时查看更改？

我对 LDA 有相当基本的了解，并使用 lda 和 gensim 库将其用于简单语料库的主题建模。请指出问题中任何概念上的不一致之处。谢谢！

Answer 1

我发现这很有用。 Gensim 确实允许将额外的语料库添加（更新）到现有的 LDA 模型中。该模块允许从训练语料库估计 LDA 模型和推断新的、未见过的文档的主题分布。这在此处描述 -

此外，该算法是流式处理的，可以处理比 RAM 更大的语料库。它还有一个多核实现来加速这个过程。

lda = LdaModel(corpus, num_topics=10)

lda.update(other_corpus)

这是更新模型的方式。

Latent Dirichlet Allocation using Gensim on more than one corpus