为什么在 CNN 中进行图像识别任务时，过滤器总是选择非常局部化？

Why in CNN for image recognition tasks, the filters are always chosen to be extremely localized?

在CNN中，过滤器通常在空间上设置为3x3、5x5。尺寸可以与图像尺寸相媲美吗？一个原因是为了减少要学习的参数的数量。除此之外，还有其他关键原因吗？例如，人们想先检测边缘？

你回答了问题的一个要点。另一个原因是这些有用的特征中的大部分可能在图像中的多个地方被发现。因此，在整个图像上滑动单个内核以期使用相同的内核在图像的不同部分提取该特征是有意义的。如果您使用的是大内核，则这些特征可能会交错并且无法具体检测到。

除了你自己的回答，降低计算成本也是一个关键点。由于我们对图像中的不同像素集使用相同的内核，因此当我们对它们进行卷积时，这些像素集共享相同的权重。由于权重的数量少于全连接层，我们可以反向传播的权重也更少。