如何在具有 3 个颜色通道的图像上想象 convolution/pooling

How to imagine convolution/pooling on images with 3 color channels

我是初学者，我了解 mnist 教程。现在我想在 SVHN 数据集上做点什么。与 mnist 相比，它带有 3 个颜色通道。我很难想象卷积和池化如何与颜色通道的额外维度一起工作。

有没有人想出一个好的方法或者给我一个 link？

感谢所有意见:)

这个很简单，区别只在于第一次卷积:

在灰色图像中，输入形状是 [batch_size, W, H, 1] 所以你的第一个卷积（假设 3x3）有一个形状 [3, 3, 1, 32] 的过滤器，如果你想在之后有 32 个维度。
在 RGB 图像中，输入形状为 [batch_size, W, H, 3]，因此您的第一个卷积（仍为 3x3）具有形状为 [3, 3, 3, 32].

在这两种情况下，输出形状（步幅为 1）都是 [batch_size, W, H, 32]