深度学习中的特定段落 - Bengio

A particular paragraph in Deep Learning - Bengio

这个问题与 chapter on RNNs 中的 Bengio 教授对深度学习的看法。 在最后一段第 336 页的第 10.2.2 节中,该书谈到 “...因为输出是 softmax 的结果,所以输入序列一定是符号序列...”。

这似乎表明输出被视为可能 'bits' 上的概率分布,下一个输入 x(t+1) 是使用输出位上的联合概率分布进行采样的。这种解释正确吗?

不对,解释不正确(除非我的解释对你的解释不正确)。 x是一个输入,它是预先固定的,所以x(t+1)不依赖于时间步t的预测值。

在那段中,他讨论了 RNN 的一个特殊情况,其中 y(t)x(t + 1) 的预测,换句话说,网络试图在给定所有先前符号的情况下预测下一个符号符号。

我对你提到的句子的理解是,由于 y 是 softmax 的结果,y 可以假设的值范围有限,因此 x 本身必须限制在相同的值范围内,因此 x 必须是 "symbol or bounded integer"。否则,例如,如果 x 是双精度数,y 无法预测它,因为 softmax 的输出是离散值。

更新:事实上,Bengio 有一篇很棒的论文: http://arxiv.org/abs/1506.03099 他实际上建议在某些迭代中,我们在训练期间预测 y(t+1) 时使用 y(t) 而不是 x(t+1) 作为输入(这与您对问题的理解一致)。