CNN:输入步幅与输出步幅

CNN: input stride vs. output stride

论文中'Fully Convolutional Networks for Semantic Segmentation' 作者在反卷积的上下文中区分了输入步幅和输出步幅。 这些术语之间有何不同?

输入步幅是过滤器的步幅。你在输出中移动了多少滤波器。

Output Stride这其实是一个标称值。在进行了几次卷积、最大池化操作之后,我们在 CNN 中得到了特征图。假设我们的输入图像是 224 * 224 而我们的最终特征图是 7*7 .

然后我们说我们的输出步长是:224/7 = 32(下采样后图像发生的近似值。)

这个张量流 script 描述了这个输出步长是什么,以及如何在密集预测的情况下在 FCN 中使用。

one uses inputs with spatial dimensions that are multiples of 32 plus 1, e.g., [321, 321]. In this case the feature maps at the ResNet output will have spatial shape [(height - 1) / output_stride + 1, (width - 1) / output_stride + 1] and corners exactly aligned with the input image corners, which greatly facilitates alignment of the features to the image. Using as input [225, 225] images results in [8, 8] feature maps at the output of the last ResNet block.