在 CNN 中有一个 "pixel is knocked off" 是什么意思?

What does it mean to have a "pixel is knocked off" in CNN?

我正在读一本书,其中一节介绍了内核在 CNN 中的工作原理:https://freecontent.manning.com/deep-learning-for-image-like-data/

Sliding a kernel over an image and requiring that the whole kernel is at each position completely within the image, yields to an activation map with reduced dimensions. For example, if you’ve a 3 x 3 kernel on all sides, one pixel is knocked off in the resulting activation map; in case of a 5 x 5 kernel, even two pixels.

在这里有一个或两个像素被敲掉是什么意思?

他们的意思是,在没有额外填充的情况下,使用 3x3 内核将在输出的每一侧“松散”一个像素。因此,如果您的输入图像是 NxN,则输出将是 (N-2)x(N-2).

例如,当 N=5 时,您可以看到当内核“适合”右下角时,其中心“在水平轴和垂直轴上都偏离一个像素”。

a a a a a           . . . . .
a a a a a           . b b b .
a a x x x    ===>   . b b b .
a a x X x           . b b B . 
a a x x x           . . . . .

 5 x 5                3 x 3

为了避免这个问题,使用了各种填充策略,例如用 0 来“包围你的图片”,以便保留大小

0 0 0 0 0 0 0            . . . . . . .
0 a a a a a 0            . b b b b b .
0 a a a a a 0            . b b b b b .
0 a a a a a 0     ===>   . b b b b b .
0 a a a x x x            . b b b b b .
0 a a a x X x            . b b b b B .
0 0 0 0 x x x            . . . . . . .

 5 x 5 + pad                5 x 5