归一化主题文档概率 text2vec R

Normalized topic document probabilities text2vec R

我试图在 运行 使用 R 中的 text2vec 包的 lda 模型之后找出主题文档概率。

以下命令生成模型:

lda_model <-  LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01)
doc_topic_distr <- lda_model$fit_transform(x = quantdfm, n_iter = 2000, convergence_tol = 0.00001, n_check_convergence = 10, progressbar = FALSE)

quantdfm 是使用 quanteda 包的 dtm,我将其插入 $fit_transform 方法中。

我注意到 doc_topic_distr 包含主题文档概率(甚至没有要求规范化)。这个对吗?因为在之前的 post: 中,Dmitriy Selivanov 要求使用以下方法推导此类概率:

doc_topic_prob = normalize(doc_topic_distr, norm = "l1")

而当我使用与上面相同的命令时,doc_topic_distr 和 doc_topic_prob 具有相同的值(我认为前者包含整数而不是后者的分数)。

如果这是代码的预期行为,请提出建议,或者我在这里遗漏了什么。

谢谢。

根据最新文档 LDA fit_transform returns 主题概率。