如何在具有 3 个颜色通道的图像上想象 convolution/pooling

How to imagine convolution/pooling on images with 3 color channels

我是初学者,我了解 mnist 教程。现在我想在 SVHN 数据集上做点什么。与 mnist 相比,它带有 3 个颜色通道。我很难想象卷积和池化如何与颜色通道的额外维度一起工作。

有没有人想出一个好的方法或者给我一个 link?

感谢所有意见:)

这个很简单,区别只在于第一次卷积:

  • 在灰色图像中,输入形状是 [batch_size, W, H, 1] 所以你的第一个卷积(假设 3x3)有一个形状 [3, 3, 1, 32] 的过滤器,如果你想在之后有 32 个维度。
  • 在 RGB 图像中,输入形状为 [batch_size, W, H, 3],因此您的第一个卷积(仍为 3x3)具有形状为 [3, 3, 3, 32].
  • 的过滤器

在这两种情况下,输出形状(步幅为 1)都是 [batch_size, W, H, 32]