如何在非顺序 keras 模型中包含批归一化

How to include batch normalization in non-sequential keras model

我是 DL 和 Keras 的新手。目前,我尝试实现一个类似 Unet 的 CNN,现在我想将批量归一化层包含到我的非序列模型中,但现在还不知道怎么做。

这是我目前尝试包含它的方法:

input_1 = Input((X_train.shape[1],X_train.shape[2], X_train.shape[3]))

conv1 = Conv2D(16, (3,3), strides=(2,2), activation='relu', padding='same')(input_1)
batch1 = BatchNormalization(axis=3)(conv1)
conv2 = Conv2D(32, (3,3), strides=(2,2), activation='relu', padding='same')(batch1)
batch2 = BatchNormalization(axis=3)(conv2)
conv3 = Conv2D(64, (3,3), strides=(2,2), activation='relu', padding='same')(batch2)
batch3 = BatchNormalization(axis=3)(conv3)
conv4 = Conv2D(128, (3,3), strides=(2,2), activation='relu', padding='same')(batch3)
batch4 = BatchNormalization(axis=3)(conv4)
conv5 = Conv2D(256, (3,3), strides=(2,2), activation='relu', padding='same')(batch4)
batch5 = BatchNormalization(axis=3)(conv5)
conv6 = Conv2D(512, (3,3), strides=(2,2), activation='relu', padding='same')(batch5)
drop1 = Dropout(0.25)(conv6)

upconv1 = Conv2DTranspose(256, (3,3), strides=(1,1), padding='same')(drop1)
upconv2 = Conv2DTranspose(128, (3,3), strides=(2,2), padding='same')(upconv1)
upconv3 = Conv2DTranspose(64, (3,3), strides=(2,2), padding='same')(upconv2)
upconv4 = Conv2DTranspose(32, (3,3), strides=(2,2), padding='same')(upconv3)
upconv5 = Conv2DTranspose(16, (3,3), strides=(2,2), padding='same')(upconv4)
upconv5_1 = concatenate([upconv5,conv2], axis=3)
upconv6 = Conv2DTranspose(8, (3,3), strides=(2,2), padding='same')(upconv5_1)
upconv6_1 = concatenate([upconv6,conv1], axis=3)
upconv7 = Conv2DTranspose(1, (3,3), strides=(2,2), activation='linear', padding='same')(upconv6_1)

model = Model(outputs=upconv7, inputs=input_1)

batch normalization用对了吗?在 keras 文档中,我读到您通常想要规范化 "features axis"!? 这是模型摘要中的一小段:

====================================================================================================
input_1 (InputLayer)             (None, 512, 512, 9)   0
____________________________________________________________________________________________________
conv2d_1 (Conv2D)                (None, 256, 256, 16)  1312        input_1[0][0]
____________________________________________________________________________________________________
conv2d_2 (Conv2D)                (None, 128, 128, 32)  4640        conv2d_1[0][0]
____________________________________________________________________________________________________
conv2d_3 (Conv2D)                (None, 64, 64, 64)    18496       conv2d_2[0][0]
____________________________________________________________________________________________________

在这种情况下,我的特征轴是轴 3(从 0 开始计数),对吗? 我阅读了关于是否应该在激活函数之前或之后实施批量归一化的讨论。在这种情况下,它是在激活函数之后使用的,对吗?有没有可能在激活函数之前使用它?

非常感谢您的帮助和反馈!真的很感谢!

第 1 部分:批量归一化是否使用正确?

您调用 BatchNormalization 层的方式是正确的; axis=3 是您想要的,正如文档所推荐的那样。 请记住,对于您的模型,axis=3 相当于默认设置 axis=-1,因此您无需显式调用它。

第2部分:在这种情况下,它是在激活函数之后使用的,对吗?有没有可能用在激活函数之前?

是的,the 2014 research paper by Ioffe and Szegedy 中定义的批量归一化旨在在激活层之后用作减少内部协变量偏移的一种方法。您的代码在卷积层上激活后正确应用 batchnorm。它在激活层之后的使用可以认为是"pre-processing step"对于信息到达下一层之前作为输入

出于这个原因,批量归一化也可以作为数据 pre-processing 步骤,您可以在输入层之后立即使用它(如 .) However, as that answer mentions, batchnorm should not be abused; it's computationally expensive and can force your model into approximately linear behavior (this answer 中所讨论的,更详细地讨论了这个问题)。

在模型的其他一些步骤(不是在激活层或输入层之后)使用 batchnorm 会对模型性能产生 poorly-understood 影响;这是一个明确应用于激活层输出的过程。

根据我使用 u-nets 的经验,我仅在最大池化之前的卷积层之后应用 batchnorm 取得了很多成功;这有效地使标准化的计算 "bang for my buck" 加倍,因为这些张量在 u-net 架构中是 re-used。除此之外,我不使用 batchnorm(如果每张图像的平均像素强度非常不均匀,则可能在输入上除外。)

axis 3 = axis -1 这是默认参数。