变分自动编码器：MSE 与 BCE

Variational Autoencoders: MSE vs BCE

我正在使用变分自动编码器，我看到有些人使用 MSE 损失，有些人使用 BCE 损失，有谁知道一个比另一个更正确吗？

据我了解，如果假设 VAE 的潜在 space 向量服从高斯分布，则应使用 MSE Loss。如果您假设它服从多项式分布，则应该使用 BCE。此外，BCE 偏向于 0.5。

谁能给我解释一下这个概念？我知道这与信息期望的下变分界项有关...

非常感谢！

简而言之：最大化预测为正态分布（多项分布）的模型的似然等价于最小化MSE（BCE）

数学细节：

DeepMind 有一个很棒的lecture on Modern Latent Variable Models（主要是关于变分自动编码器），你可以在那里了解你需要的一切