为什么空洞卷积能保持分辨率?

Why do dilated convolutions preserve resolution?

动画来自here。我想知道为什么声称扩张卷积可以保持分辨率。显然蓝色的输入是 7x7,绿色的输出是 3x3。

编辑:

解决分辨率损失的一种方法是用大约一半的当前感受野大小填充输入,但是

  1. 这基本上破坏了空洞卷积不会失去分辨率的说法,因为它是保留分辨率的填充。为了获得与输入相同的输出大小,传统的卷积需要更少的填充。
  2. 由于填充呈指数增长,相对较小的膨胀因子将导致大量填充输入图像。想象一个 1024x1024 的输入,放大 10 倍,它将变成大约 2048x2048(如果我在这里错了,请告诉我)。这是原始大小的 4 倍,这意味着大部分卷积是在填充区域而不是实际输入上完成的。就我个人而言,这似乎很违反直觉。

这确实是一个带有 5x5 过滤器的扩张卷积。如果您将动画的蓝色部分想象成 0 填充的 3x3 图像,它会保留分辨率。

关于您的编辑,重点确实在您链接的 post 中的声明中:扩张卷积支持感受野的指数扩展,而不会损失分辨率或覆盖范围

填充是为了保持分辨率。那是对的。

我们真正想要的是扩大感受野的大小。在您链接的 post 中,通过 3 个 3x3 扩张卷积以不断增加的扩张,我们已经在特征图中实现了 15x15 的感受野。

要达到 3x3 卷积和无覆盖损失无分辨率损失的等效效果,我们可以大步向前3个(4个会导致覆盖范围丢失)和极重的填充(在某种程度上就像你说的那样,卷积主要是填充零)。然而,我们需要 4 个 3x3 的卷积,步幅为 3 而不是 3,以实现 15x15 的感受野。

最重要的是,与扩张卷积的情况相比,普通卷积会有更多没有意义的卷积。