深度学习 - 特征金字塔网络 - 如何理解下采样符号?

Deep Learning - Feature Pyramid Network - How to understand the downsampling notation?

我有一个关于特征金字塔网络 (FPN) 架构中下采样过程的符号的问题。我不确定,堆栈溢出是否实际上是这个问题的最佳位置。因此,非常欢迎任何关于更好地方的提示。

我的问题可以用下图从 FPN 的一位原始作者的演示文稿中得到最好的说明:

来源:http://presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf,幻灯片 11

1 和 1/4 的比例注释对我来说很有意义。显然,我们从全尺寸开始,经过一个池化步骤后,我们的尺寸为 1/4,因为我们在 x 和 y 方向上缩小了 2 倍。但据我了解,按照相同的逻辑,在下一阶段(即在下一次池化之后),我们应该有 1/16 的比例。下一步1/64之后,等等。我错过了什么?

经过一个轮询步骤后,您将获得 1/2 而不是 1/4 的比例。比例尺指的是沿轴的变化,而不是面积的比例。 那么为什么一开始你有1/4的变化呢? 如幻灯片 11 所述,绘图参考 resnet/resnext 模型。如果我们查看 resnet 模型架构,我们可以看到首先我们有一个 7x7 的卷积,步幅为 stride 2,然后我们有轮询层,步幅为 stride 2 所以总的来说,我们每个轴都减少了 1/4。 在接下来的阶段,我们只有步幅为 2 的轮询,所以我们只能得到因子 2 的变化。即 1/8、1/16 1/32。