理解论文中关于 VGGNet 的一段话

Understanding a passage in the Paper about VGGNet

关于 VGGNet 的文章中有一段我不明白。也许有人可以提供帮助。

在我看来,一个卷积层的权重数是

p=w*h*d*n+n

其中 w 是过滤器的宽度,h 是过滤器的高度,d 是过滤器的深度,n 是过滤器的数量。

文章中是这样写的:

假设一个三层3×3的onvolution stack的输入和输出都有C个通道,stack参数化为3*(3^2*C^2) = 27C^2 重量;同时,单个 7×7 转换。层需要 7^2*C^2 = 49C^2 个参数。

不明白,这里的通道是什么意思,为什么要用这个公式。

谁能给我解释一下?

提前致谢。

你的直觉是正确的;我们只需要稍微解开他们的解释。对于第一种情况:

w = 3 # filter width
h = 3 # filter height
d = C # filter depth (number of channels is same as number of input filters; eg RGB is C=3)
n = C # number of output filters/channels

这将生成 whdn = 9C^2 参数。然后,他们还说其中三个堆叠在一起,所以那就是 27C^2.

对于单个7x7过滤器,那么都是一样的7x7xCxCx1

最后的区别是你在原来的 post 的末尾再次添加了 n;那就是偏置项,在 VGG 中他们会跳过这些偏置项(许多人会跳过偏置项;它们的值在某些设置中是有争议的)。