为什么Relu可以解决vanishing gradient?
Why can Relu solve vanishing gradient?
当涉及到 sigmoid 时,由于 0~1 的大量乘法,第一个边很少更新。我知道它叫做消失梯度。
但为什么 Relu 不是问题呢?我认为 relu
的第一个边缘也很少更新。
既然relu
的derivative
不是0就是1,那么很多乘法不都收敛到0吗?
这篇论文对这个问题有一个有趣的讨论:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf
特别是,请查看第 318 页的 "Potential Problems" 部分。这似乎恰恰是因为导数不是 0 就是 1,但绝不只是 "approaching" 零(如在 sigmoid 中案例)导致稀疏表示,结果证明有助于训练。
当涉及到 sigmoid 时,由于 0~1 的大量乘法,第一个边很少更新。我知道它叫做消失梯度。
但为什么 Relu 不是问题呢?我认为 relu
的第一个边缘也很少更新。
既然relu
的derivative
不是0就是1,那么很多乘法不都收敛到0吗?
这篇论文对这个问题有一个有趣的讨论:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf
特别是,请查看第 318 页的 "Potential Problems" 部分。这似乎恰恰是因为导数不是 0 就是 1,但绝不只是 "approaching" 零(如在 sigmoid 中案例)导致稀疏表示,结果证明有助于训练。