残差网络可以跳过一个线性而不是两个吗?
Can Residual Nets skip one linearity instead of two?
ResNet 中的标准是跳过 2 个线性。
是否也只跳过一项工作?
我建议你参考 the original paper 作者 Kaiming He at al.
在 3.1-3.2 节中,他们将 "identity" 快捷方式定义为 y = F(x, W) + x
,其中 W
是可训练参数,对于任何残差映射 F
有待学习。重要的是残差映射包含非线性,否则整个结构就是一个复杂的线性层。但线性的数量不受限制。
例如,ResNeXt network 在仅包含卷积层的堆栈周围创建标识快捷方式(参见下图)。所以在残差块中没有任何个密集层。
因此,一般的答案是:是的,它会起作用。然而,在特定的神经网络中,将两个密集层减少到一个可能不是一个好主意,因为无论如何残差块必须足够灵活才能学习残差函数。因此,请记住验证您提出的任何设计。
ResNet 中的标准是跳过 2 个线性。 是否也只跳过一项工作?
我建议你参考 the original paper 作者 Kaiming He at al.
在 3.1-3.2 节中,他们将 "identity" 快捷方式定义为 y = F(x, W) + x
,其中 W
是可训练参数,对于任何残差映射 F
有待学习。重要的是残差映射包含非线性,否则整个结构就是一个复杂的线性层。但线性的数量不受限制。
例如,ResNeXt network 在仅包含卷积层的堆栈周围创建标识快捷方式(参见下图)。所以在残差块中没有任何个密集层。
因此,一般的答案是:是的,它会起作用。然而,在特定的神经网络中,将两个密集层减少到一个可能不是一个好主意,因为无论如何残差块必须足够灵活才能学习残差函数。因此,请记住验证您提出的任何设计。