text2vec - 主题词是否会随着新数据更新？

text2vec - Do topics' words update with new data?

我目前正在使用 text2vec 包中的 LDA 执行主题建模。我设法创建了一个 dtm 矩阵，然后将 LDA 及其 fit_transform 方法与 n_topics=50 一起应用。

在查看每个主题的热门词时，我的脑海中突然冒出一个问题。我计划之后将该模型应用于新数据，并且有可能出现模型以前没有遇到的新词。该模型是否仍然能够将每个单词分配给其各自的主题？而且，这些词会不会也加到题目里，让我用get_top_words就能定位到？

感谢您的回答！

统计学习的思想是 "train" 数据和 "test" 数据的基本分布大致相同。因此，如果您的新文档包含完全不同的分布，您就不能指望 LDA 会神奇地工作。对于任何其他模型都是如此。

在推理期间，主题词分布是固定的（在训练阶段学习）。所以 get_top_words 在模型训练后总是 return 相同的词。

当然不会自动包含新词 - 从词汇表（您在构建 DTM 之前学习）构建的文档-术语矩阵和新文档也将仅包含来自固定词汇表的词。