关于卷积神经网络输出通道的困惑

Question

我对卷积神经网络中的多通道场景感到困惑。

假设我有一个 10(width) * 5(height) * 6(channels) 图像，我将其输入默认的 2-D 卷积层，stride= 1 和 padding=0 并且 期望输出为 8(width) * 3(height) * 16(channels).

我知道内核的大小是3(width) * 3(height)，但我不知道到底有多少内核，以及如何将它们应用于输入数据以提供最终的 16 个通道。

有人可以帮助我。

Answer 1

二维卷积层每个输入通道、每个输出通道包含一个内核。因此，在您的情况下，这将是 6*16=96 个内核。对于 3x3 内核，这对应于 3*3*96 = 864 个参数。

>>> import torch

>>> conv = torch.nn.Conv2d(6, 16, (3, 3))
>>> torch.numel(conv.weight)
864

对于一张图像，每个输入通道首先应用一个内核。在您的情况下，这会产生 6 个特征图，它们被加在一起（+ 可能的偏差）以形成输出通道的 1 个。然后，重复 15 次以形成其他 15 个输出通道。

Confusion about the output channels of convolution neural network