对于深度学习，层归一化总是比批量归一化更好吗

Is layer normaization always better than batch normalization for deep learning

normalization
deep-learning

最近开发的 Layer Normalization method addresses the same problem as Batch Normalization，但计算开销较低且不依赖批次，因此可以在训练和测试期间一致应用。

我的问题是，层归一化总是比批归一化更好，还是在某些情况下批归一化是有益的？

在 Layer Normalization 的论文中说，Batch Normalization 对卷积神经网络效果更好。因此，这取决于应用程序类型。它给出了一个原因：如果每个神经元都提供相似的贡献，那么移动和缩放将会很好地工作，但是，在卷积网络中情况并非如此，因为在图像的边界处，神经元的活动非常不同。因此，请尝试仅将其应用于完全连接的层和 RNN。虽然，至少对于前者，BN 也可能比 LN 表现更好，具体取决于批量大小和问题类型。

对于深度学习，层归一化总是比批量归一化更好吗

Is layer normaization always better than batch normalization for deep learning

normalization

deep-learning