
Trouble understanding Convolutional Neural Network

The neurons in a layer will only be connected to a small region of the layer before it, instead of all of the neurons in a fully-connected manner.


For example, suppose that the input volume has size [32x32x3], (e.g. an RGB CIFAR-10 image). If the receptive field is of size 5x5, then each neuron in the Conv Layer will have weights to a [5x5x3] region in the input volume, for a total of 5*5*3 = 75 weights.


require 'image'
require 'nn'

i = image.lena()

model = nn.Sequential()
model:add(nn.SpatialConvolutionMM(3, 10, 5, 5)) --depth = 3, #output layer = 10, filter = 5x5

res = model:forward(i)


Question 1: 卷积是这样完成的吗 - 假设我们拍摄了一张 32x32x3 的图像。并且有 5x5 过滤器。那么 5x5 过滤器将通过整个 32x32 图像并产生复杂的图像?好的,所以在整个图像上滑动 5x5 过滤器,我们得到一个图像,如果有 10 个输出层,我们得到 10 个图像(如您从输出中看到的)。我们如何得到这些?

conv层的神经元数量是多少?是输出层数吗?在我上面写的代码中,model:add(nn.SpatialConvolutionMM(3, 10, 5, 5))。是10吗? (输出层数?)

Answer to Question 2:


对于 32x32x3 输入图像,5x5 过滤器将迭代每个像素,并针对每个像素查看 5x5 邻域。该邻域包含 5*5*3=75 个值。下面是单个输入通道上的 3x3 滤波器的示例图像,即具有 3*3*1 值邻域的图像 (source).

对于每个单独的邻居,过滤器将有一个参数(也称为权重),因此有 75 个参数。然后,为了计算一个单一的输出值(像素 x、y 处的值),它读取这些相邻值,将每个值与相应的 parameter/weight 相乘,并在最后相加(参见 discrete convolution)。必须在训练期间学习最佳权重。

所以一个过滤器将遍历图像并逐个像素地生成新的输出。如果你有多个过滤器(即 SpatialConvolutionMM 中的第二个参数 >1),你会得到多个输出("planes" in torch)。

每个输出平面都由其自己的过滤器生成。每个过滤器都有自己的参数(在您的示例中为 5*5*3 个参数)。多个过滤器的过程与一个完全相同。

你应该称它们为权重或参数,"neurons" 并不适合卷积层。如前所述,在您的示例中,每个过滤器的参数数量为 5*5*3=75。因为您有 10 个过滤器 ("output planes"),所以您总共有 750 个参数。如果您使用 model:add(nn.SpatialConvolutionMM(10, 10, 5, 5)) 向网络添加第二层,则每个过滤器将有额外的 5*5*10=250 个参数,总共有 250*10=2500 个参数。请注意这个数字是如何快速增长的(一层中有 512 filters/output 个平面在 256 个输入平面上运行并不少见)。

如需进一步阅读,您应该查看 http://neuralnetworksanddeeplearning.com/chap6.html。向下滚动到章节 "Introducing convolutional networks"。在 "Local receptive fields" 下有可视化效果,可能会帮助您了解过滤器的作用(上面显示了一个)。

是的,一个 5x5 的过滤器将通过整个图像创建一个 28x28 的 RGB 图像。所谓的 "feature map" 中的每个单元接收连接到输入图像中 5x5 区域的 5x5x3 输入(这个 5x5 邻域称为单元的 "local receptive field")。特征图中相邻(相邻)单元的感受野以上一层的相邻(相邻)单元为中心。

注意特征图层上的单元共享同一组权重,并对图像的不同部分执行相同的操作。(也就是说,如果您移动原始图像,特征图上的输出也会移动相同数量)。也就是说,对于每个特征图,您将权重集限制为每个单元都相同;你只有 5x5x3 个未知权重。

