如何应对由面向 relu 的 CNN 产生的巨大数字

Question

我有一个 CNN，其结构与 AlexNet 很接近，见下文：

Convolutional Neural Network structure:
100x100x3      Input image
25x25x12       Convolutional layer: 4x4x12, stride = 4, padding = 0
12x12x12       Max pooling layer: 3x3, stride = 2
12x12x24       Convolutional layer: 5x5x24, stride = 1, padding = 2
5x5x24         Max pooling layer: 4x4, stride = 2
300x1x1        Flatten layer: 600 -> 300
300x1x1        Fully connected layer: 300
3x1x1          Fully connected layer: 3

显然，只有最大池化层和卷积层，数字将接近 0 和无穷大，具体取决于权重的负值。我想知道有什么方法可以解决这个问题，因为我想避免大量使用。

由此产生的一个问题是，如果您在最后一层使用 sigmoid。看到 sigmoid 的导数是 s(x)*(1-s(x))。拥有更大的数字将不可避免地使 sigmoid 的值为 1，因此您会注意到在 back prop 上，您有 1*(1-1)，这显然不会下降得太好。

所以我想知道有什么方法可以尝试保持较低的数字。

用 python 标记，因为这是我实现的。我使用了自己的代码。

Answer 1

我在 AI 堆栈交换（它更适合）上问了这个问题，通过实施正确的权重初始化，数字不会在向前或向后爆炸或消失经过。看这里：https://ai.stackexchange.com/questions/13106/how-are-exploding-numbers-in-a-forward-pass-of-a-cnn-combated

如何应对由面向 relu 的 CNN 产生的巨大数字

How to combat huge numbers produced by relu-oriented CNN

python

backpropagation

conv-neural-network