使用 LDA 模型获取 Python 中样本外文档的主题权重

Question

我在 Python (https://pypi.python.org/pypi/lda) 中使用 LDA 来获取一组文档的主题。我能够获得用于训练模型的文档的主题及其权重。有没有办法将模型应用于估计 LDA 时未包含的文档？例如，如果我使用文档 1-100 来估计主题，我可以将模型应用于文档 101-200 以获得这些样本外文档的主题权重吗？我正在使用的 LDA python 包可以做到这一点吗？

如果你点击我上面提供的link，它给出了如何获取样本文档的主题权重的示例：

doc_topic = model.doc_topic_
for i in range(10):
    print doc_topic[i]

是否有适用于样本外文档的类似功能？

Answer 1

是的，在你拟合模型之后你想要transform。参见 http://pythonhosted.org/lda/api.html#lda.lda.LDA.transform

类似于

topics = model.transform(out_of_sample_docs)

使用 LDA 模型获取 Python 中样本外文档的主题权重

Using LDA Model to Obtain Topic Weights for Out-Of-Sample Documents in Python

python

lda