Caffe:这两个网络有什么区别?

Caffe: what is the difference between these 2 networks?

我很想知道网络 1 和网络 2 有什么区别?他们都有 conv 和 16 个过滤器。

问:1和2中学习的16个filter是否不同?为什么? advantages/disadvantage 每个?

假设

  • 权重相同(conv16 的 in_cx16x3x3 内核被分成两个 in_cx8x3x3 内核,每个 conv8 层一个),
  • 没有"Dropout"

然后两个网络计算相同的输出。但是,我怀疑第一个选项效率更高(只计算 im2col 一次,不需要 copying/moving 数据等...)

然而,当考虑 "Dropout" 时,这两个备选方案不再等效,因为 conv16 的丢失模式对于所有 16 个经过训练的过滤器都是相同的,两个 conv8 看到 不同 训练期间的辍学模式,因此可能学习不同的内核。