对于深度学习,层归一化总是比批量归一化更好吗
Is layer normaization always better than batch normalization for deep learning
最近开发的 Layer Normalization method addresses the same problem as Batch Normalization,但计算开销较低且不依赖批次,因此可以在训练和测试期间一致应用。
我的问题是,层归一化总是比批归一化更好,还是在某些情况下批归一化是有益的?
在 Layer Normalization 的论文中说,Batch Normalization 对卷积神经网络效果更好。因此,这取决于应用程序类型。它给出了一个原因:如果每个神经元都提供相似的贡献,那么移动和缩放将会很好地工作,但是,在卷积网络中情况并非如此,因为在图像的边界处,神经元的活动非常不同。
因此,请尝试仅将其应用于完全连接的层和 RNN。虽然,至少对于前者,BN 也可能比 LN 表现更好,具体取决于批量大小和问题类型。
最近开发的 Layer Normalization method addresses the same problem as Batch Normalization,但计算开销较低且不依赖批次,因此可以在训练和测试期间一致应用。
我的问题是,层归一化总是比批归一化更好,还是在某些情况下批归一化是有益的?
在 Layer Normalization 的论文中说,Batch Normalization 对卷积神经网络效果更好。因此,这取决于应用程序类型。它给出了一个原因:如果每个神经元都提供相似的贡献,那么移动和缩放将会很好地工作,但是,在卷积网络中情况并非如此,因为在图像的边界处,神经元的活动非常不同。 因此,请尝试仅将其应用于完全连接的层和 RNN。虽然,至少对于前者,BN 也可能比 LN 表现更好,具体取决于批量大小和问题类型。