如何计算测试评估期间 BatchNormalization 层中发生的乘法次数？

Question

或者，为什么我的 CNN 的测试评估在使用 BatchNormalization 时比没有使用时要长得多？

我需要估算在测试集上评估训练有素的 CNN（使用带有 TF 后端的 Keras）的理论运行时间。因此，我试图计算评估期间发生的乘法运算的次数，以将其用作度量标准。

但出于某种原因，批归一化 (BN) 似乎对评估时间有重大影响，尽管在我的理解中在理论上并不相关。

我可以计算密集层和卷积层的乘法次数，我想我可以忽略激活函数和批量归一化的计算，因为两者都只为每个输入添加一个乘法，这明显少于卷积层做。

然而，当我在每个 ConvLayer 之后使用和不使用批归一化测试同一个网络时，我注意到我不能忽略它：在下面给出的简单示例中，只有一个过滤器大小为 (3x3) 的 ConvLayer，在我进行分类时紧接着是一个 softmax 激活的密集层。在转换层之后使用 BN，我需要大约 4.6 秒来完成测试集。使用没有 BN 的其他完全相同的网络架构，相同的测试集处理时间减半。

使用 BN 的测试配置摘要（在 ~4.6 秒内完成测试集评估）：

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_1 (Conv2D)            (None, 32, 32, 32)        896       
_________________________________________________________________
batch_normalization_1 (Batch (None, 32, 32, 32)        128       
_________________________________________________________________
flatten_1 (Flatten)          (None, 32768)             0         
_________________________________________________________________
dense_1 (Dense)              (None, 43)                1409067   
=================================================================
Total params: 1,410,091
Trainable params: 1,410,027
Non-trainable params: 64

没有 BN（在 ~2.3 秒内完成测试集评估）：

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_2 (Conv2D)            (None, 32, 32, 32)        896       
_________________________________________________________________
flatten_2 (Flatten)          (None, 32768)             0         
_________________________________________________________________
dense_2 (Dense)              (None, 43)                1409067   
=================================================================
Total params: 1,409,963
Trainable params: 1,409,963
Non-trainable params: 0

我不知道这是如何扩展的，因为我一开始就不明白原因，但我可以说我已经用 3 到 6 个相同的 conv 层测试了其他网络（使用 padding = same 来保持维度常数），并且在大多数情况下，测试评估的差异似乎在 ~25% 到 ~50% 之间变化（下面给出的单层转换示例甚至有 ~100%）。

为什么 BN 有这么大的影响，换句话说，我错过了什么计算？我想：BN 只是对每个输入加一次乘法。因此，例如在上面给出的 BN 网络中：例如，我预计 batch_normalization_1 会增加 32*32*32 次乘法，而 conv2d_1 会增加 32*32*32*3*3 次乘法。

但是，即使 ConvLayers 添加了更多的乘法运算，这又如何对整体运行时间产生如此大的影响？

用于构建模型的代码：

model = Sequential()
model.add(Conv2D(32, (3, 3), activation="relu", input_shape=x_train.shape[1:], padding="same"))
model.add(BatchNormalization())
model.add(Flatten())
model.add(Dense(43, activation='softmax'))

其中 x_train.shape[1:] 为 (32, 32, 3)，表示具有 RGB 颜色的 32x32 图像。

Answer 1

在这里回答我自己的问题，以防有人遇到同样的问题。

通过嵌入 Fritz AI 基准库 https://docs.fritz.ai/python-library/benchmark.html，我实际上可以检查每层的 flops 数量，事实证明，归一化只增加了可忽略的计算量。

----------------------------------------------------------------------------------------------------------------------
Layer (type)                                   Output Shape           MFLOPS     Weights       Core ML Compatible     
======================================================================================================================
conv2d_1 (Conv2D)                              [None, 32, 32, 32]     0.92       896           True          
----------------------------------------------------------------------------------------------------------------------
batch_normalization_1 (BatchNormalization)     [None, 32, 32, 32]     0.07       128           True          
----------------------------------------------------------------------------------------------------------------------
flatten_1 (Flatten)                            [None, 32768]          0.00       0             True          
----------------------------------------------------------------------------------------------------------------------
dense_1 (Dense)                                [None, 43]             2.82       1,409,067     True          
----------------------------------------------------------------------------------------------------------------------

也就是说，这个问题一定是由某些低效的例程或什至是 keras 中的错误引起的，无法使用批量归一化评估模型。很奇怪，但这是唯一可能的解释。

如何计算测试评估期间 BatchNormalization 层中发生的乘法次数？

How to calculate the number of multiplications happening in BatchNormalization layer during test evaluation?

time-complexity

conv-neural-network

keras

tensorflow

batch-normalization