ResNet中为什么在残差连接之后应用ReLU?

Why is ReLU applied after residual connection in ResNet?

在 ResNet 架构中,为什么 ReLU 激活应用在与残差块中的残差逐元素相加之后,而不是之前?

因为是这样提议的。已在以下工作中调查了残余连接:https://arxiv.org/pdf/1603.05027.pdf 他们发现,Skip -> BN -> RELU -> Conv -> BN -> RELU -> Conv -> Add 效果最好。

但是,性能差异可以忽略不计,因此原始 ResNet 公式占了上风。不过,如果您想知道哪些有效,哪些无效,您可以阅读这篇论文。