了解在卷积神经网络中使用平均池化对分辨率的影响

Understanding the effect on resolution by using average pooling in convolution neural network

我在 CIFAR-10 数据集上使用 colorization 代码,我遇到了这一行:

downsize_module = nn.Sequential(nn.AvgPool2d(2), nn.AvgPool2d(2),  nn.Upsample(scale_factor=2), .Upsample(scale_factor=2))

Average Pooling用了两次,那么resolution of output image是什么?

这是我的理解:

例如,如果我们有 8*8 个原始输入图像,第一个平均池 (2*2) 将给出 4*4 作为输出,第二个平均 (2*2) 池将给出 2*2 作为输出。

输出图像的分辨率 = 输入图像像素的 1/16。 所以,就像素而言,它将是原始的 1/16,但就尺寸而言,它将是原始的 1/4。

哪个说法正确?像素的 1/16 或 1/4。

您在这两种情况下提供的信息相同,您只需要指定您所谈论的单位即可。边缘中的像素或像素总数。如果您的图像是正方形,则像素总数将按边缘像素数的平方缩放。通常在提到像素总数时(例如在摄影中),通常会看到类似这样的内容:分辨率 = 10.4Mp 或 3.2kp。另一方面,在谈论屏幕时,分辨率通常是图像的高度(以像素为单位),例如:分辨率 = 1080 表示 1920x1080 像素的图像。