深度神经网络不学习

Deep neural network not learning

我在8层(1568-784-512-256-128-64-32-10)全连接深度神经网络上训练MNIST,新创建的激活函数如图below.This 函数看起来有点类似于 ReLU,然而,它在 "kink" 处给出了垃圾曲线。

我用它训练5层、6层、7层全连接神经网络时效果很好。当我在 8 层全连接神经网络中使用它时,问题就出现了。它只会在前几个时期学习,然后停止学习(测试损失给出 "nan",测试准确率下降到 9.8%)。为什么会这样?

我的其他配置如下:Dropout=0.5,Weight initialization=Xavier initialization,Learning rate=0.1

我相信这就是通常发生在深度网络中的梯度消失问题。解决它没有硬性规定。我的建议是重塑您的网络架构

看这里[