使用 LDA 和 Gensim 推断新的、未见过的文档的主题分布

Question

假设我使用基本命令生成了 Corpus1 的潜在 Dirichlet 分配模型：

ldamodel = gensim.models.ldamodel.LdaModel(corpus1, num_topics=25, id2word = dictionary, passes=50, minimum_probability=0)

我的问题是，如何 class从 `Corpus2' 中验证新文档？

我正在尝试使用以下命令 print(ldamodel[Corpus2[1]]) 获取第一个文档的分发，但出现以下错误：

ValueError: not enough values to unpack (expected 2, got 1)

我很困惑对象 Corpus2 应该是 class。非常欢迎任何关于在哪里可以找到更多信息或教程的建议

Answer 1

我遇到过类似的问题。确保语料库 2 与语料库 1 具有相同的表示。从外观上看，我猜 Corpus2[1] 是文档中出现的单词列表。向量化相同。执行 tf-idf 转换，然后将其提供给模型。这样，它有两个元素。 (word_id, tf-idf值)

infer topic distributions on new, unseen documents with LDA and Gensim