卷积神经网络如何处理通道
How a Convolutional Neural Net handles channels
我已经阅读了很多关于 CNN 传统上处理多个通道(例如 RGB 图像中的 3 个通道)的方式的解释,但仍然一头雾水。
当 5x5x3 滤镜(比方说)应用于 RGB 图像的一块时,究竟会发生什么?实际上每个通道分别发生 3 个不同的 2D 卷积(具有独立的权重)吗?然后将结果简单地加在一起产生最终输出传递给下一层?还是真正的3D卷积?
这张图片来自 Andrew Ng 的 deeplearning.ai 课程。 6 X 6 X 3 - 其中 3 对应于 3 个颜色通道。
6 X 6 是图像的高度和宽度。
对于卷积步骤,我们将输入图像与 3 X 3 X 3 filter/kernel 进行卷积。输入图像和过滤器都有 3 层。 (对于输入图像和过滤器,大多数情况下两者都是相同的)。输出将为 4 X 4 X 1。
3 X 3 X 3 为您提供 27 features/parameters,您可以将其与相应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加以获得 4 X 4 输出图像中 [0,0] 的值。现在移动输入图像的黄色立方体并将其滑过 1 个框向右移动,一旦到达右端,将立方体向下滑动一行并继续乘法以填充 4 X 4 输出。建议您拿纸和笔,在所有立方体和内核中填充随机值并求解乘法。
有关详细信息,请在 youtube 上观看这些讲座。
https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF
我已经阅读了很多关于 CNN 传统上处理多个通道(例如 RGB 图像中的 3 个通道)的方式的解释,但仍然一头雾水。
当 5x5x3 滤镜(比方说)应用于 RGB 图像的一块时,究竟会发生什么?实际上每个通道分别发生 3 个不同的 2D 卷积(具有独立的权重)吗?然后将结果简单地加在一起产生最终输出传递给下一层?还是真正的3D卷积?
这张图片来自 Andrew Ng 的 deeplearning.ai 课程。 6 X 6 X 3 - 其中 3 对应于 3 个颜色通道。 6 X 6 是图像的高度和宽度。 对于卷积步骤,我们将输入图像与 3 X 3 X 3 filter/kernel 进行卷积。输入图像和过滤器都有 3 层。 (对于输入图像和过滤器,大多数情况下两者都是相同的)。输出将为 4 X 4 X 1。 3 X 3 X 3 为您提供 27 features/parameters,您可以将其与相应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加以获得 4 X 4 输出图像中 [0,0] 的值。现在移动输入图像的黄色立方体并将其滑过 1 个框向右移动,一旦到达右端,将立方体向下滑动一行并继续乘法以填充 4 X 4 输出。建议您拿纸和笔,在所有立方体和内核中填充随机值并求解乘法。
有关详细信息,请在 youtube 上观看这些讲座。 https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF