text2vec - 主题词是否会随着新数据更新?

text2vec - Do topics' words update with new data?

我目前正在使用 text2vec 包中的 LDA 执行主题建模。我设法创建了一个 dtm 矩阵,然后将 LDA 及其 fit_transform 方法与 n_topics=50 一起应用。

在查看每个主题的热门词时,我的脑海中突然冒出一个问题。我计划之后将该模型应用于新数据,并且有可能出现模型以前没有遇到的新词。该模型是否仍然能够将每个单词分配给其各自的主题?而且,这些词会不会也加到题目里,让我用get_top_words就能定位到?

感谢您的回答!

统计学习的思想是 "train" 数据和 "test" 数据的基本分布大致相同。因此,如果您的新文档包含完全不同的分布,您就不能指望 LDA 会神奇地工作。对于任何其他模型都是如此。

在推理期间,主题词分布是固定的(在训练阶段学习)。所以 get_top_words 在模型训练后总是 return 相同的词。

当然不会自动包含新词 - 从词汇表(您在构建 DTM 之前学习)构建的文档-术语矩阵和新文档也将仅包含来自固定词汇表的词。