在 CNN 中有一个 "pixel is knocked off" 是什么意思？

Question

我正在读一本书，其中一节介绍了内核在 CNN 中的工作原理：https://freecontent.manning.com/deep-learning-for-image-like-data/。

Sliding a kernel over an image and requiring that the whole kernel is at each position completely within the image, yields to an activation map with reduced dimensions. For example, if you’ve a 3 x 3 kernel on all sides, one pixel is knocked off in the resulting activation map; in case of a 5 x 5 kernel, even two pixels.

在这里有一个或两个像素被敲掉是什么意思？

Answer 1

他们的意思是，在没有额外填充的情况下，使用 3x3 内核将在输出的每一侧“松散”一个像素。因此，如果您的输入图像是 NxN，则输出将是 (N-2)x(N-2).

例如，当 N=5 时，您可以看到当内核“适合”右下角时，其中心“在水平轴和垂直轴上都偏离一个像素”。

a a a a a           . . . . .
a a a a a           . b b b .
a a x x x    ===>   . b b b .
a a x X x           . b b B . 
a a x x x           . . . . .

 5 x 5                3 x 3

为了避免这个问题，使用了各种填充策略，例如用 0 来“包围你的图片”，以便保留大小

0 0 0 0 0 0 0            . . . . . . .
0 a a a a a 0            . b b b b b .
0 a a a a a 0            . b b b b b .
0 a a a a a 0     ===>   . b b b b b .
0 a a a x x x            . b b b b b .
0 a a a x X x            . b b b b B .
0 0 0 0 x x x            . . . . . . .

 5 x 5 + pad                5 x 5

在 CNN 中有一个 "pixel is knocked off" 是什么意思？

What does it mean to have a "pixel is knocked off" in CNN?

machine-learning

deep-learning

neural-network

conv-neural-network