Caffe:这两个网络有什么区别?
Caffe: what is the difference between these 2 networks?
我很想知道网络 1 和网络 2 有什么区别?他们都有 conv 和 16 个过滤器。
问:1和2中学习的16个filter是否不同?为什么? advantages/disadvantage 每个?
假设
- 权重相同(conv16 的
in_c
x16x3x3 内核被分成两个 in_c
x8x3x3 内核,每个 conv8 层一个),
- 没有
"Dropout"
然后两个网络计算相同的输出。但是,我怀疑第一个选项效率更高(只计算 im2col
一次,不需要 copying/moving 数据等...)
然而,当考虑 "Dropout"
时,这两个备选方案不再等效,因为 conv16 的丢失模式对于所有 16 个经过训练的过滤器都是相同的,两个 conv8 看到 不同 训练期间的辍学模式,因此可能学习不同的内核。
我很想知道网络 1 和网络 2 有什么区别?他们都有 conv 和 16 个过滤器。
问:1和2中学习的16个filter是否不同?为什么? advantages/disadvantage 每个?
假设
- 权重相同(conv16 的
in_c
x16x3x3 内核被分成两个in_c
x8x3x3 内核,每个 conv8 层一个), - 没有
"Dropout"
然后两个网络计算相同的输出。但是,我怀疑第一个选项效率更高(只计算 im2col
一次,不需要 copying/moving 数据等...)
然而,当考虑 "Dropout"
时,这两个备选方案不再等效,因为 conv16 的丢失模式对于所有 16 个经过训练的过滤器都是相同的,两个 conv8 看到 不同 训练期间的辍学模式,因此可能学习不同的内核。