带火花的 LDA 模型

LDA model with spark

我在推断新文档的主题分布时遇到了一些问题。 实际上,我使用的是 Spark 2.2.0,并且我已经训练过 LDA 模型 val lda = new LDA().setK(5).setMaxIterations(24) 如何推断新文档的主题?

只有 LocalLDAModel 可以对新文档进行评分,因此需要先将您的模型转换为该模型:

val localLda = lda.toLocal

然后对于单个文档:

val document: Vector = ???
localLda.topicDistribution(document)

或多个文档:

val documents: RDD[(Long, Vector)] = ???
localLda.topicDistributions(documents)