为什么我们需要 LDA 中的超参数 beta 和 alpha?

Why do we need the hyperparameters beta and alpha in LDA?

我正在尝试了解 Latent Dirichlet Allocation (LDA) 的技术部分,但我有几个问题:

第一:为什么我们每次采样下面的方程式时都需要加上alpha和gamma?如果我们从等式中删除 alpha 和 gamma 会怎样?还有可能得到结果吗?

其次:在LDA中,我们给文档中的每个词随机分配一个主题。然后,我们尝试通过观察数据来优化主题。上式中与后验推理相关的部分在哪里?

如果您查看推论derivation on Wiki,引入alpha 和beta 只是因为theta 和phi 均来自由它们分别唯一确定的Dirichlet 分布。选择 Dirichlet 分布作为先验分布(例如 P(phi|beta))的原因主要是为了通过利用 conjugate prior(这里是 Dirichlet和分类分布,分类分布是跨国分布的特例,其中 n 设置为 1,即只有一次试验)。此外,Dirichlet 分布可以帮助我们 "inject" 我们相信文档主题和主题词分布以文档或主题的几个主题和词为中心(如果我们设置低超参数)。如果您删除 alpha 和 beta,我不确定它会如何工作。

后验推理被联合概率推理取代,至少在吉布斯采样中,你需要联合概率,同时像Metropolis-Hasting范式那样选择一维到"transform the state"。你放在这里的公式本质上是从联合概率 P(w,z) 推导出来的。我想向您推荐 Monte Carlo Statistical Methods(Robert 着)这本书,以充分理解为什么推理有效。