变分自动编码器:MSE 与 BCE

Variational Autoencoders: MSE vs BCE

我正在使用变分自动编码器,我看到有些人使用 MSE 损失,有些人使用 BCE 损失,有谁知道一个比另一个更正确吗?

据我了解,如果假设 VAE 的潜在 space 向量服从高斯分布,则应使用 MSE Loss。如果您假设它服从多项式分布,则应该使用 BCE。此外,BCE 偏向于 0.5。

谁能给我解释一下这个概念?我知道这与信息期望的下变分界项有关...

非常感谢!

简而言之:最大化预测为正态分布(多项分布)的模型的似然等价于最小化MSE(BCE)

数学细节:

The real reason you use MSE and cross-entropy loss functions

DeepMind 有一个很棒的lecture on Modern Latent Variable Models(主要是关于变分自动编码器),你可以在那里了解你需要的一切