了解在卷积神经网络中使用平均池化对分辨率的影响

Question

我在 CIFAR-10 数据集上使用 colorization 代码，我遇到了这一行：

downsize_module = nn.Sequential(nn.AvgPool2d(2), nn.AvgPool2d(2),  nn.Upsample(scale_factor=2), .Upsample(scale_factor=2))

Average Pooling用了两次，那么resolution of output image是什么？

这是我的理解：

例如，如果我们有 8*8 个原始输入图像，第一个平均池 (2*2) 将给出 4*4 作为输出，第二个平均 (2*2) 池将给出 2*2 作为输出。

输出图像的分辨率 = 输入图像像素的 1/16。所以，就像素而言，它将是原始的 1/16，但就尺寸而言，它将是原始的 1/4。

哪个说法正确？像素的 1/16 或 1/4。

Answer 1

您在这两种情况下提供的信息相同，您只需要指定您所谈论的单位即可。边缘中的像素或像素总数。如果您的图像是正方形，则像素总数将按边缘像素数的平方缩放。通常在提到像素总数时（例如在摄影中），通常会看到类似这样的内容：分辨率 = 10.4Mp 或 3.2kp。另一方面，在谈论屏幕时，分辨率通常是图像的高度（以像素为单位），例如：分辨率 = 1080 表示 1920x1080 像素的图像。

了解在卷积神经网络中使用平均池化对分辨率的影响

Understanding the effect on resolution by using average pooling in convolution neural network

resolution

pooling

conv-neural-network