在多个语料库上使用 Gensim 进行潜在狄利克雷分配

Latent Dirichlet Allocation using Gensim on more than one corpus

我有两个关于 LDA 的 gensim 用法的问题。

1) 我如何使用一个语料库创建模型,保存它并可能稍后通过在另一个语料库上训练模型来扩展它?可能吗?

2) LDA 是否可以用于对未见过的文档进行分类,或者需要将其包含在语料库中重新创建模型?有没有一种在线方法可以做到这一点并即时查看更改?

我对 LDA 有相当基本的了解,并使用 ldagensim 库将其用于简单语料库的主题建模。请指出问题中任何概念上的不一致之处。谢谢!

我发现这很有用。 Gensim 确实允许将额外的语料库添加(更新)到现有的 LDA 模型中。该模块允许从训练语料库估计 LDA 模型和推断新的、未见过的文档的主题分布。这在此处描述 -

https://radimrehurek.com/gensim/models/ldamodel.html

此外,该算法是流式处理的,可以处理比 RAM 更大的语料库。它还有一个多核实现来加速这个过程。

lda = LdaModel(corpus, num_topics=10)

lda.update(other_corpus)

这是更新模型的方式。