使用LDA完成主题建模后如何将主题映射到文档?

How to map topic to a document after topic modeling is done with LDA?

有什么方法可以将生成的主题从 LDA 映射到文档列表并确定它属于哪个主题?我对使用无监督学习对文档进行聚类并将其分离到适当的集群中感兴趣。

例如,我在 运行 具有最佳超参数的 LDA 模型之后有 10 个主题。因此,它应该 return 已经使用预训练的 LDA 模型定义了一些主题,其中包含用户输入的新句子或文档。

我在等你们好的解决方案。 :)

Ps。我正在使用 Gensim 进行 NLP。

使用Quanteda你可以实现如下

dtm <- convert(dfmat_news, to = "topicmodels")
lda <- LDA(dtm, k = 10). #10 topics in this case

然后可以使用命令topics()获取最有可能的主题,并将它们保存为文档级变量。

docvars(dfmat_news, 'topic') <- topics(lda)
head(topics(lda), 20)    

这里是教程:https://tutorials.quanteda.io/machine-learning/topicmodel/

希望它清晰有用:)