为什么这个 VAE 实现有时会添加一个 sigmoid 操作？

Question

我正在使用 Chainer 框架 (link) 在 Python 中构建变分自动编码器 (VAE)。我在 github 上找到了各种工作示例，并且正在尝试改编其中的一个。我已经成功地把它弄到运行并且它工作得很好，但还有一些我不明白的地方。

在下面的代码片段中，定义解码器的行为，有一个可选的额外 sigmoid 函数：

def decode(self, z, sigmoid=True):
    h = F.leaky_relu(self.ld1(z))
    h = F.leaky_relu(self.ld2(h))
    h = self.ld3(h)
    if sigmoid:
        return F.sigmoid(h)
    else:
        return h

这个函数在损失函数中Sigmoid=False的训练中使用：

def lf(x):
    mu, ln_var = self.encode(x)
    batchsize = len(mu)

    # reconstruction loss
    rec_loss = 0
    for l in six.moves.range(k):
        z = F.gaussian(mu, ln_var)
                                                       # ↓here↓
        rec_loss += F.bernoulli_nll(x, self.decode(z, sigmoid=False)) / (k * batchsize)
    self.rec_loss = rec_loss

    # adding latent loss
    self.latent_loss = beta * gaussian_kl_divergence(mu, ln_var) / batchsize
    self.loss = self.rec_loss + self.latent_loss
    chainer.report({'rec_loss': self.rec_loss, 'latent_loss': self.latent_loss, 'loss': self.loss}, observer=self)
    return self.loss

并在生成示例训练后与 Sigmoid=True（隐含地）一起使用：

z = C.Variable(np.random.normal(0, 1, (self._batchsize, args.dimz)).astype(np.float32))
    with C.using_config('train', False), C.no_backprop_mode():
        xrand = self._model.decode(z)  # ←here
    xrand = np.asarray(xrand.array).reshape(self._batchsize, 3, 18, 11)

为什么要这个额外的 sigmoid 函数？它发挥什么作用？为什么在训练后添加，而不是在训练期间添加？

Answer 1

阅读 this documentation 的注释。 F.bernoulli_nll的输入参数不应该是sigmoided，因为函数内部包含sigmoid函数。因此，将隐藏变量馈送到F.bernoulli_nll时，指定了sigmoid=False。（我对这种困惑也有过完全相同的经历。）

为什么这个 VAE 实现有时会添加一个 sigmoid 操作？

Why does this VAE implementation sometimes add a sigmoid operation?

machine-learning

neural-network

python-3.x

autoencoder

chainer