卷积神经网络如何处理通道

How a Convolutional Neural Net handles channels

我已经阅读了很多关于 CNN 传统上处理多个通道（例如 RGB 图像中的 3 个通道）的方式的解释，但仍然一头雾水。

当 5x5x3 滤镜（比方说）应用于 RGB 图像的一块时，究竟会发生什么？实际上每个通道分别发生 3 个不同的 2D 卷积（具有独立的权重）吗？然后将结果简单地加在一起产生最终输出传递给下一层？还是真正的3D卷积？

这张图片来自 Andrew Ng 的 deeplearning.ai 课程。 6 X 6 X 3 - 其中 3 对应于 3 个颜色通道。 6 X 6 是图像的高度和宽度。对于卷积步骤，我们将输入图像与 3 X 3 X 3 filter/kernel 进行卷积。输入图像和过滤器都有 3 层。（对于输入图像和过滤器，大多数情况下两者都是相同的）。输出将为 4 X 4 X 1。 3 X 3 X 3 为您提供 27 features/parameters，您可以将其与相应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加以获得 4 X 4 输出图像中 [0,0] 的值。现在移动输入图像的黄色立方体并将其滑过 1 个框向右移动，一旦到达右端，将立方体向下滑动一行并继续乘法以填充 4 X 4 输出。建议您拿纸和笔，在所有立方体和内核中填充随机值并求解乘法。

有关详细信息，请在 youtube 上观看这些讲座。 https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF

https://www.youtube.com/watch?v=7g8jpK4llkc&t=1s

卷积神经网络如何处理通道

How a Convolutional Neural Net handles channels

machine-learning

convolution

computer-vision