深度学习 - 特征金字塔网络 - 如何理解下采样符号？

Deep Learning - Feature Pyramid Network - How to understand the downsampling notation?

我有一个关于特征金字塔网络 (FPN) 架构中下采样过程的符号的问题。我不确定，堆栈溢出是否实际上是这个问题的最佳位置。因此，非常欢迎任何关于更好地方的提示。

我的问题可以用下图从 FPN 的一位原始作者的演示文稿中得到最好的说明：

来源：http://presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf，幻灯片 11

1 和 1/4 的比例注释对我来说很有意义。显然，我们从全尺寸开始，经过一个池化步骤后，我们的尺寸为 1/4，因为我们在 x 和 y 方向上缩小了 2 倍。但据我了解，按照相同的逻辑，在下一阶段（即在下一次池化之后），我们应该有 1/16 的比例。下一步1/64之后，等等。我错过了什么？

经过一个轮询步骤后，您将获得 1/2 而不是 1/4 的比例。比例尺指的是沿轴的变化，而不是面积的比例。那么为什么一开始你有1/4的变化呢？如幻灯片 11 所述，绘图参考 resnet/resnext 模型。如果我们查看 resnet 模型架构，我们可以看到首先我们有一个 7x7 的卷积，步幅为 stride 2，然后我们有轮询层，步幅为 stride 2 所以总的来说，我们每个轴都减少了 1/4。在接下来的阶段，我们只有步幅为 2 的轮询，所以我们只能得到因子 2 的变化。即 1/8、1/16 1/32。

深度学习 - 特征金字塔网络 - 如何理解下采样符号？

Deep Learning - Feature Pyramid Network - How to understand the downsampling notation?

deep-learning

computer-vision

notation