CNN:为什么我们先将图像调整为 256,然后将中心裁剪为 224?

CNN: Why do we first resize the image to 256 and then center crop to 224?

Alexnet 图像输入的转换如下:

transforms.Resize(256),
transforms.CenterCrop(224),

为什么我们先将图像调整为 256,然后中心裁剪为 224?我知道 224x224 是 ImageNet 的默认图像大小,但为什么我们不能直接将图像调整为 224x224?

也许这是最好的视觉说明。考虑下图 (128x128px):

假设我们直接将其调整为 16x16px,我们最终会得到:

但如果我们先将其调整为 24x24px,

然后裁剪成16x16px,看起来像这样:

如您所见,它去掉了边框,同时保留了中心的细节。并排注意差异:

同样适用于 224px 与 256px,只是分辨率更高。