使用 LDA 和 Gensim 推断新的、未见过的文档的主题分布
infer topic distributions on new, unseen documents with LDA and Gensim
假设我使用基本命令生成了 Corpus1
的潜在 Dirichlet 分配模型:
ldamodel = gensim.models.ldamodel.LdaModel(corpus1, num_topics=25, id2word = dictionary, passes=50, minimum_probability=0)
我的问题是,如何 class从 `Corpus2' 中验证新文档?
我正在尝试使用以下命令 print(ldamodel[Corpus2[1]])
获取第一个文档的分发,但出现以下错误:
ValueError: not enough values to unpack (expected 2, got 1)
我很困惑对象 Corpus2
应该是 class。非常欢迎任何关于在哪里可以找到更多信息或教程的建议
我遇到过类似的问题。确保语料库 2 与语料库 1 具有相同的表示。
从外观上看,我猜 Corpus2[1] 是文档中出现的单词列表。向量化相同。执行 tf-idf 转换,然后将其提供给模型。这样,它有两个元素。 (word_id, tf-idf值)
假设我使用基本命令生成了 Corpus1
的潜在 Dirichlet 分配模型:
ldamodel = gensim.models.ldamodel.LdaModel(corpus1, num_topics=25, id2word = dictionary, passes=50, minimum_probability=0)
我的问题是,如何 class从 `Corpus2' 中验证新文档?
我正在尝试使用以下命令 print(ldamodel[Corpus2[1]])
获取第一个文档的分发,但出现以下错误:
ValueError: not enough values to unpack (expected 2, got 1)
我很困惑对象 Corpus2
应该是 class。非常欢迎任何关于在哪里可以找到更多信息或教程的建议
我遇到过类似的问题。确保语料库 2 与语料库 1 具有相同的表示。 从外观上看,我猜 Corpus2[1] 是文档中出现的单词列表。向量化相同。执行 tf-idf 转换,然后将其提供给模型。这样,它有两个元素。 (word_id, tf-idf值)