添加批量归一化会降低性能

Adding batch normalization decreases the performance

我正在使用 PyTorch 为基于骨架的动作识别实现分类网络。该模型由三个卷积层和两个全连接层组成。这个基础模型让我在 NTU-RGB+D 数据集中的准确率达到了 70% 左右。我想了解更多关于批量归一化的知识,所以我为除最后一层之外的所有层添加了批量归一化。令我惊讶的是,评估准确率下降到 60% 而不是增加 但训练准确率从 80% 增加到 90%。谁能说我做错了什么?或者添加批量归一化不需要提高准确性?

批量归一化的模型

class BaseModelV0p2(nn.Module):

    def __init__(self, num_person, num_joint, num_class, num_coords):
        super().__init__()
        self.name = 'BaseModelV0p2'
        self.num_person = num_person
        self.num_joint = num_joint
        self.num_class = num_class
        self.channels = num_coords
        self.out_channel = [32, 64, 128]
        self.loss = loss
        self.metric = metric
        self.bn_momentum = 0.01

        self.bn_cv1 = nn.BatchNorm2d(self.out_channel[0], momentum=self.bn_momentum)
        self.conv1 = nn.Sequential(nn.Conv2d(in_channels=self.channels, out_channels=self.out_channel[0],
                                             kernel_size=3, stride=1, padding=1),
                                   self.bn_cv1,
                                    nn.ReLU(),
                                    nn.MaxPool2d(kernel_size=2, stride=2))

        self.bn_cv2 = nn.BatchNorm2d(self.out_channel[1], momentum=self.bn_momentum)
        self.conv2 = nn.Sequential(nn.Conv2d(in_channels=self.out_channel[0], out_channels=self.out_channel[1],
                                            kernel_size=3, stride=1, padding=1),
                                   self.bn_cv2,
                                nn.ReLU(),
                                nn.MaxPool2d(kernel_size=2, stride=2))

        self.bn_cv3 = nn.BatchNorm2d(self.out_channel[2], momentum=self.bn_momentum)
        self.conv3 = nn.Sequential(nn.Conv2d(in_channels=self.out_channel[1], out_channels=self.out_channel[2],
                                            kernel_size=3, stride=1, padding=1),
                                   self.bn_cv3,
                                  nn.ReLU(),
                                  nn.MaxPool2d(kernel_size=2, stride=2))

        self.bn_fc1 = nn.BatchNorm1d(256 * 2, momentum=self.bn_momentum)
        self.fc1 = nn.Sequential(nn.Linear(self.out_channel[2]*8*3, 256*2),
                                 self.bn_fc1,
                                 nn.ReLU(),
                                 nn.Dropout2d(p=0.5))  # TO check

        self.fc2 = nn.Sequential(nn.Linear(256*2, self.num_class))

    def forward(self, input):
        list_bn_layers = [self.bn_fc1, self.bn_cv3, self.bn_cv2, self.bn_cv1]
        # set the momentum  of the batch norm layers to given momentum value during trianing and 0 during evaluation
        # ref: https://discuss.pytorch.org/t/model-eval-gives-incorrect-loss-for-model-with-batchnorm-layers/7561
        # ref: https://github.com/pytorch/pytorch/issues/4741
        for bn_layer in list_bn_layers:
            if self.training:
                bn_layer.momentum = self.bn_momentum
            else:
                bn_layer.momentum = 0

        logits = []
        for i in range(self.num_person):
            out = self.conv1(input[:, :, :, :, i])

            out = self.conv2(out)

            out = self.conv3(out)

            logits.append(out)

        out = torch.max(logits[0], logits[1])
        out = out.view(out.size(0), -1)
        out = self.fc1(out)
        out = self.fc2(out)

        t = out

        assert not ((t != t).any())  # find out nan in tensor
        assert not (t.abs().sum() == 0)  # find out 0 tensor

        return out

我对您观察到的现象的解释是,您没有减少协方差偏移,这正是批归一化的目的,而是增加了它。换句话说,不是减少训练和测试之间的分布差异,而是增加它,这就是导致训练和测试之间的准确性差异更大的原因。 Batch Normalization 并不能始终确保更好的性能,但对于某些问题,它并不能很好地工作。我有几个可以改进的想法:

  • 如果批量较小,请增加批量大小,这将有助于批量归一化层中计算的均值和标准差成为对总体参数的更稳健估计。
  • 稍微降低 bn_momentum 参数,看看这是否也能稳定 Batch Norm 参数。
  • 我不确定你应该在测试时将 bn_momentum 设置为零,我认为你应该在你想要训练时调用 model.train() 并且在你想要使用你的时调用 model.eval()经过训练的模型来执行推理。
  • 您也可以尝试层规范化而不是批量规范化,因为它不需要累积任何统计数据并且通常效果很好
  • 尝试使用 dropout 对模型进行一些正则化
  • 确保在每个时期都对训练集进行洗牌。不对数据集进行混洗可能会导致批次相关,从而使统计数据处于批归一化循环中。这可能会影响您的概括 我希望这些想法对你有用

问题可能出在你的动力上。我看到你正在使用 0.01.

以下是我如何尝试不同的 beta 以适应具有动量的点,而 beta=0.01 我得到了糟糕的结果。通常使用beta=0.1

这几乎是因为两个主要原因 1.非平稳训练程序 和 2.train/test 不同的分布

  • 如果可以尝试其他正则化技术,如 Drop-out,我遇到了这个问题,我发现我的测试和训练分布可能不同,所以在我删除 BN 并改用 drop-out 之后,得到了合理的结果。阅读 this 了解更多

  • 使用nn.BatchNorm2d(out_channels, track_running_stats=False)这将禁用批次的运行宁统计并使用当前批次的均值和方差进行归一化

  • 在训练模式下 运行 一些前向传递 with torch.no_grad() 块中的数据。这稳定了 running_mean / running_std 值

  • 在数据集中对 model.train()model.eval()

    使用相同的 batch_size
  • 增加国阵的势头。这意味着means和stds learned在training

    的过程中会更加稳定
  • 这在您使用预训练模型时很有用

       for child in model.children():
           for ii in range(len(child)):
               if type(child[ii])==nn.BatchNorm2d:
                   child[ii].track_running_stats = False