tensorflow object detection faster rcnn 随机失败

tensorflow object detection faster rcnn randomly fails

我正在尝试使用 tensorflow 1.2 中的新对象检测 api 和示例 faster-rcnn 配置来训练自定义数据集。我得到的错误与一些张量形状有关,但它在训练过程中似乎是随机发生的,而且确切的形状也会发生变化。

INFO:tensorflow:global step 132: loss = 63.3741 (0.262 sec/step)
INFO:tensorflow:global step 133: loss = 33.7362 (0.292 sec/step)
INFO:tensorflow:global step 134: loss = 18.0165 (0.264 sec/step)
INFO:tensorflow:global step 135: loss = 40.5577 (0.266 sec/step)
INFO:tensorflow:global step 136: loss = 24.1086 (0.266 sec/step)
2017-07-10 10:23:49.066345: W tensorflow/core/framework/op_kernel.cc:1165] Invalid argument: Incompatible shapes: [1,60,4] vs. [1,64,4]
     [[Node: gradients/Loss/BoxClassifierLoss/Loss/sub_grad/BroadcastGradientArgs = BroadcastGradientArgs[T=DT_INT32, _device="/job:localhost/replica:0/task:0/gpu:0"](gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape, gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape_1)]]
2017-07-10 10:23:49.066475: W tensorflow/core/framework/op_kernel.cc:1165] Invalid argument: Incompatible shapes: [1,60,4] vs. [1,64,4]
     [[Node: gradients/Loss/BoxClassifierLoss/Loss/sub_grad/BroadcastGradientArgs = BroadcastGradientArgs[T=DT_INT32, _device="/job:localhost/replica:0/task:0/gpu:0"](gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape, gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape_1)]]
2017-07-10 10:23:49.066509: W tensorflow/core/framework/op_kernel.cc:1165] Invalid argument: Incompatible shapes: [1,60,4] vs. [1,64,4]
     [[Node: gradients/Loss/BoxClassifierLoss/Loss/sub_grad/BroadcastGradientArgs = BroadcastGradientArgs[T=DT_INT32, _device="/job:localhost/replica:0/task:0/gpu:0"](gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape, gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape_1)]]
INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.InvalidArgumentError'>, Incompatible shapes: [1,60,4] vs. [1,64,4]
     [[Node: gradients/Loss/BoxClassifierLoss/Loss/sub_grad/BroadcastGradientArgs = BroadcastGradientArgs[T=DT_INT32, _device="/job:localhost/replica:0/task:0/gpu:0"](gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape, gradients/Loss/BoxClassifierLoss/Loss/sub_grad/Shape_1)]]
     [[Node: gradients/FirstStageFeatureExtractor/resnet_v1_50/resnet_v1_50/block1/unit_1/bottleneck_v1/conv3/convolution_grad/tuple/control_dependency_1/_2621 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_13108_gradients/FirstStageFeatureExtractor/resnet_v1_50/resnet_v1_50/block1/unit_1/bottleneck_v1/conv3/convolution_grad/tuple/control_dependency_1", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]

如您所见,它正确运行了可变步数,然后给我 Invalid argument: Incompatible shapes: [1,60,4] vs. [1,64,4]。我不明白的是为什么会触发这个错误,而且不兼容的形状来自哪里,因为这在运行之间也会发生变化。

当我将我的数据集转换为 TF 格式时,我不确定这是否是我的问题。但是,我已经使用他们的 ssd 实现在同一个数据集上成功训练了几天,所以我认为可以肯定地说数据格式正确。

编辑:标签映射文件是 here。我想再次指出,同一个数据集使用 ssd 可以完美运行。

Tensorflow 对象检测 API 假定“0”标签是为 'none_of_the_above' 保留的,因此立即要做的一件事是将标签映射中的每个标签索引加 1。

目前还不清楚为什么 Faster R-CNN 失败(以困难的方式)而不是 SSD(可能是我们需要深入研究的东西)---但如果你做得很好,我会有点惊讶使用该标签映射的 SSD 结果。

您可以尝试从 1 而不是 0 开始您的 class ID。

item {
  id: 1
  name: 'balloon'
}

对我有用。

您必须在 faster_rcnn_resnet101.config 文件

中配置 num_classes = xx

您正在阅读来自 tf.train.batchallow_smaller_final_batch=True 的序列示例。该错误可能是最后一个较小的最终批次导致批次大小不兼容的形状