你如何 link 将 LDA 模型生成的主题返回到实际文档

How do you link back topics generated by LDA model to actual document

LDA 代码生成主题从 0 到 5。是否有用于 link 生成的主题和文档本身的标准方法(规范)。例如:doc1 属于 Topic0 ,doc5 属于主题 Topic1 等。 我能想到的一种方法是在文档的每个主题中对每个生成的关键字进行字符串搜索,是否有通用的方法或实践?

Ex LDA 代码 - https://github.com/manhcompany/lda/blob/master/lda.py

我"collected some code",这对我有用。假设你有一个术语频率

tf_vectorizer = CountVectorizer("parameters of your choice")
tf = tf_vectorizer.fit_transform("your data)`
lda_model = LatentDirichletAllocation("other parameters of your choice")
lda_model.fit(tf)

创建主题文档矩阵(关键步骤),select num_topic 最重要的主题

doc_topic = lda_model.transform(tf)
num_most_important_topic = 2

dominant_topic = []
for ind_doc in range(doc_topic.shape[0]):
    dominant_topic.append(sorted(range(len(doc_topic[ind_doc])),
                          key=lambda ind_top: doc_topic[ind_doc][ind_top],
                          reverse=True)[:num_most_important_topic])

这应该会为您提供一系列 num_most_important_topic 个主题。祝你好运!