CNN：为什么我们先将图像调整为 256，然后将中心裁剪为 224？

Question

Alexnet 图像输入的转换如下：

transforms.Resize(256),
transforms.CenterCrop(224),

为什么我们先将图像调整为 256，然后中心裁剪为 224？我知道 224x224 是 ImageNet 的默认图像大小，但为什么我们不能直接将图像调整为 224x224？

Answer 1

也许这是最好的视觉说明。考虑下图 (128x128px)：

假设我们直接将其调整为 16x16px，我们最终会得到：

但如果我们先将其调整为 24x24px，

然后裁剪成16x16px，看起来像这样：

如您所见，它去掉了边框，同时保留了中心的细节。并排注意差异：

同样适用于 224px 与 256px，只是分辨率更高。

CNN: Why do we first resize the image to 256 and then center crop to 224?