经过一段时间的训练后，训练损失值在增加，但模型检测到的对象非常好

Question

我在训练 CNN 从我自己的数据集中检测对象时遇到了一个奇怪的问题。我正在使用迁移学习，在训练开始时，损失值正在下降（如预期）。但是过了一段时间，它越来越高，我不知道为什么会这样。

同时，当我查看 Tensorboard 上的 Images 选项卡以检查 CNN 预测对象的效果时，我可以看到它做得很好，但它没有看起来它随着时间的推移变得越来越糟。此外，Precision 和 Recall 图表看起来不错，只有 Loss 图表（尤其是 classification_loss）显示随时间增加的趋势。

以下是一些具体细节：

我有 10 个不同的 class 徽标（例如 DHL、BMW、FedEx 等）
每个 class
我在 Ubuntu 18.04

我尝试了多个预训练模型，最新的模型是 faster_rcnn_resnet101_coco 使用此配置管道：

model {
  faster_rcnn {
    num_classes: 10
    image_resizer {
      keep_aspect_ratio_resizer {
        min_dimension: 600
        max_dimension: 1024
      }
    }
    feature_extractor {
      type: 'faster_rcnn_resnet101'
      first_stage_features_stride: 16
    }
    first_stage_anchor_generator {
      grid_anchor_generator {
        scales: [0.25, 0.5, 1.0, 2.0]
        aspect_ratios: [0.5, 1.0, 2.0]
        height_stride: 16
        width_stride: 16
      }
    }
    first_stage_box_predictor_conv_hyperparams {
      op: CONV
      regularizer {
        l2_regularizer {
          weight: 0.0
        }
      }
      initializer {
        truncated_normal_initializer {
          stddev: 0.01
        }
      }
    }
    first_stage_nms_score_threshold: 0.0
    first_stage_nms_iou_threshold: 0.7
    first_stage_max_proposals: 300
    first_stage_localization_loss_weight: 2.0
    first_stage_objectness_loss_weight: 1.0
    initial_crop_size: 14
    maxpool_kernel_size: 2
    maxpool_stride: 2
    second_stage_box_predictor {
      mask_rcnn_box_predictor {
        use_dropout: false
        dropout_keep_probability: 1.0
        fc_hyperparams {
          op: FC
          regularizer {
            l2_regularizer {
              weight: 0.0
            }
          }
          initializer {
            variance_scaling_initializer {
              factor: 1.0
              uniform: true
              mode: FAN_AVG
            }
          }
        }
      }
    }
    second_stage_post_processing {
      batch_non_max_suppression {
        score_threshold: 0.0
        iou_threshold: 0.6
        max_detections_per_class: 100
        max_total_detections: 300
      }
      score_converter: SOFTMAX
    }
    second_stage_localization_loss_weight: 2.0
    second_stage_classification_loss_weight: 1.0
  }
}

train_config: {
  batch_size: 1
  optimizer {
    momentum_optimizer: {
      learning_rate: {
        manual_step_learning_rate {
          initial_learning_rate: 0.0003
          schedule {
            step: 900000
            learning_rate: .00003
          }
          schedule {
            step: 1200000
            learning_rate: .000003
          }
        }
      }
      momentum_optimizer_value: 0.9
    }
    use_moving_average: false
  }
  gradient_clipping_by_norm: 10.0
  fine_tune_checkpoint: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/models2/faster_rcnn_resnet101_coco/model.ckpt"
  from_detection_checkpoint: true
  data_augmentation_options {
    random_horizontal_flip {
    }
  }
}

train_input_reader: {
  tf_record_input_reader {
    input_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/train.record"
  }
  label_map_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/label_map.pbtxt"
}

eval_config: {
  num_examples: 8000
  # Note: The below line limits the evaluation process to 10 evaluations.
  # Remove the below line to evaluate indefinitely.
  max_evals: 10
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/test.record"
  }
  label_map_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/label_map.pbtxt"
  shuffle: false
  num_readers: 1
}

在这里你可以看到我训练近 23 小时并达到超过 120k 步后得到的结果：

所以，我的问题是，为什么损失值会随着时间的推移而增加？它应该越来越小或保持不变，但你可以在上面的图表中清楚地看到增加的趋势。我认为一切都已正确配置并且我的数据集相当不错（.tfrecord 文件也正确 "built"）。

为了检查是否是我的错，我尝试使用其他人的数据集和配置文件。所以我使用了 racoon dataset author's files (he provided all of the necessary files on his repo)。我刚刚下载了它们并开始训练，没有进行任何修改，以检查我是否会得到与他相似的结果。

令人惊讶的是，在 82k 步之后，我得到的图表与链接文章中显示的图表完全不同（在 22k 步之后捕获）。在这里你可以看到我们结果的比较：

My losses vs his TotalLoss
My precision vs his mAP

很明显，有些东西在我的电脑上运行不一样。我怀疑这可能与我自己的数据集损失增加的原因相同，这就是我提到它的原因。

Answer 1

totalLoss 是其他四项损失的加权和。（RPN cla 和 reg 损失，BoxCla cla 和 reg 损失）它们都是 Evaluation loss。在 tensorboard 上，您可以选中或取消选中以查看仅用于训练或仅用于评估的评估结果。（比如下图有train summary和evaluation summary）

如果评估损失增加，这可能表明模型过度拟合，此外，精度指标也有所下降。

为了尝试更好的微调结果，您可以尝试调整四个损失的权重，例如，您可以增加 BoxClassifierLoss/classification_loss 的权重，让模型更好地关注这个指标。在你的配置文件中，second_stage_classification_loss_weight 和 first_stage_objectness_loss_weight 的损失权重都是 1，而其他两个都是 2，所以模型目前更关注其他两个。

关于为什么 loss_1 和 loss_2 相同的额外问题。这可以通过查看张量流图来解释。

这里loss_2是total_loss的总结，（注意这个total_loss和totalLoss中的不一样）红圈节点是tf.identity节点。此节点将输出与输入相同的张量，因此 loss_1 与 loss_2

相同

经过一段时间的训练后，训练损失值在增加，但模型检测到的对象非常好

Training loss value is increasing after some training time, but the model detects objects pretty good

object-detection

tensorflow

loss-function