在 CNN 中有一个 "pixel is knocked off" 是什么意思?
What does it mean to have a "pixel is knocked off" in CNN?
我正在读一本书,其中一节介绍了内核在 CNN 中的工作原理:https://freecontent.manning.com/deep-learning-for-image-like-data/。
Sliding a kernel over an image and requiring that the whole kernel is
at each position completely within the image, yields to an activation
map with reduced dimensions. For example, if you’ve a 3 x 3 kernel on
all sides, one pixel is knocked off in the resulting activation map;
in case of a 5 x 5 kernel, even two pixels.
在这里有一个或两个像素被敲掉是什么意思?
他们的意思是,在没有额外填充的情况下,使用 3x3 内核将在输出的每一侧“松散”一个像素。因此,如果您的输入图像是 NxN,则输出将是 (N-2)x(N-2).
例如,当 N=5 时,您可以看到当内核“适合”右下角时,其中心“在水平轴和垂直轴上都偏离一个像素”。
a a a a a . . . . .
a a a a a . b b b .
a a x x x ===> . b b b .
a a x X x . b b B .
a a x x x . . . . .
5 x 5 3 x 3
为了避免这个问题,使用了各种填充策略,例如用 0 来“包围你的图片”,以便保留大小
0 0 0 0 0 0 0 . . . . . . .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 ===> . b b b b b .
0 a a a x x x . b b b b b .
0 a a a x X x . b b b b B .
0 0 0 0 x x x . . . . . . .
5 x 5 + pad 5 x 5
我正在读一本书,其中一节介绍了内核在 CNN 中的工作原理:https://freecontent.manning.com/deep-learning-for-image-like-data/。
Sliding a kernel over an image and requiring that the whole kernel is at each position completely within the image, yields to an activation map with reduced dimensions. For example, if you’ve a 3 x 3 kernel on all sides, one pixel is knocked off in the resulting activation map; in case of a 5 x 5 kernel, even two pixels.
在这里有一个或两个像素被敲掉是什么意思?
他们的意思是,在没有额外填充的情况下,使用 3x3 内核将在输出的每一侧“松散”一个像素。因此,如果您的输入图像是 NxN,则输出将是 (N-2)x(N-2).
例如,当 N=5 时,您可以看到当内核“适合”右下角时,其中心“在水平轴和垂直轴上都偏离一个像素”。
a a a a a . . . . .
a a a a a . b b b .
a a x x x ===> . b b b .
a a x X x . b b B .
a a x x x . . . . .
5 x 5 3 x 3
为了避免这个问题,使用了各种填充策略,例如用 0 来“包围你的图片”,以便保留大小
0 0 0 0 0 0 0 . . . . . . .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 ===> . b b b b b .
0 a a a x x x . b b b b b .
0 a a a x X x . b b b b B .
0 0 0 0 x x x . . . . . . .
5 x 5 + pad 5 x 5