为什么 NMF 和 LDA 算法使用 random_state 参数?使用每次生成的随机主题有什么好处?

Why random_state parameter is used in NMF and LDA algorithm ? What are the benefits of using random topics generated every time?

对于主题建模,
为什么 NMF 和 LDA 算法使用 random_state 参数?
使用每次生成的随机主题有什么好处?

两者的算法都是随机的 - 这意味着它们使用随机性作为估计好的答案的一部分。这样做是为了让它易于处理,在 LDA 的情况下,整个模型是随机的,理想地为您提供答案的概率分布(称为 "the posterior distribution"),而不是提供一个单一的、可能的答案作为估计。

所以答案是,在算法中使用随机性可以使一个极其困难的问题在不到一百年的时间内变得更加简单和可行。

如果您要使用它们,我认为您最好研究一下它们,了解它们的工作原理和工作原理。使用您不了解的工具是有风险的,因为您并不真正了解该工具提供的结果实际意味着什么。一个例子是所有 "topics" 中的数字词的概率非常低。这些概率的差异实际上是没有意义的——给定一个不同的后验样本,你会得到不同的概率,在单词之间排名不同。