如何在具有 3 个颜色通道的图像上想象 convolution/pooling
How to imagine convolution/pooling on images with 3 color channels
我是初学者,我了解 mnist 教程。现在我想在 SVHN 数据集上做点什么。与 mnist 相比,它带有 3 个颜色通道。我很难想象卷积和池化如何与颜色通道的额外维度一起工作。
有没有人想出一个好的方法或者给我一个 link?
感谢所有意见:)
这个很简单,区别只在于第一次卷积:
- 在灰色图像中,输入形状是
[batch_size, W, H, 1]
所以你的第一个卷积(假设 3x3)有一个形状 [3, 3, 1, 32]
的过滤器,如果你想在之后有 32 个维度。
- 在 RGB 图像中,输入形状为
[batch_size, W, H, 3]
,因此您的第一个卷积(仍为 3x3)具有形状为 [3, 3, 3, 32]
. 的过滤器
在这两种情况下,输出形状(步幅为 1)都是 [batch_size, W, H, 32]
我是初学者,我了解 mnist 教程。现在我想在 SVHN 数据集上做点什么。与 mnist 相比,它带有 3 个颜色通道。我很难想象卷积和池化如何与颜色通道的额外维度一起工作。
有没有人想出一个好的方法或者给我一个 link?
感谢所有意见:)
这个很简单,区别只在于第一次卷积:
- 在灰色图像中,输入形状是
[batch_size, W, H, 1]
所以你的第一个卷积(假设 3x3)有一个形状[3, 3, 1, 32]
的过滤器,如果你想在之后有 32 个维度。 - 在 RGB 图像中,输入形状为
[batch_size, W, H, 3]
,因此您的第一个卷积(仍为 3x3)具有形状为[3, 3, 3, 32]
. 的过滤器
在这两种情况下,输出形状(步幅为 1)都是 [batch_size, W, H, 32]