YOLO 的输出是什么?
What's the output of YOLO?
我正在尝试使用 YOLO 在 Android 应用程序中检测车牌。
所以我在 Google Colab 中训练了一个 YOLOv3 和一个 YOLOv4 模型。我使用 wonderfull project of Hunglc007 将这两个模型转换为 TensorFlow Lite,我还验证了它们是否正常工作并得到了以下结果:
但是当我试图理解模型的输出以在我的应用程序中对其进行调整时,我使用 netron:
得到了这个
当模型被训练为仅检测一个对象时,为什么我有 2 个输出?
为什么输出的格式是这样的,这个[1,1,4]
代表什么?
编辑
可以找到 bboxes 的代码 here
boxes, scores, classes, valid_detections = tf.image.combined_non_max_suppression(
boxes=tf.reshape(boxes, (tf.shape(boxes)[0], -1, 1, 4)),
scores=tf.reshape(
pred_conf, (tf.shape(pred_conf)[0], -1, tf.shape(pred_conf)[-1])),
max_output_size_per_class=50,
max_total_size=50,
iou_threshold=FLAGS.iou,
score_threshold=FLAGS.score
)
pred_bbox = [boxes.numpy(), scores.numpy(), classes.numpy(), valid_detections.numpy()]
image = utils.draw_bbox(original_image, pred_bbox)
# image = utils.draw_bbox(image_data*255, pred_bbox)
image = Image.fromarray(image.astype(np.uint8))
image.show()
image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2RGB)
cv2.imwrite(FLAGS.output + 'detection' + str(count) + '.png', image)
我不是 Netron 方面的专家,但通过检查问题及其预期输出,我发现它应该为每次检测产生两个输出;检测矩形和检测置信度。因此,您询问的两个输出可能是由 4 个浮点数定义的矩形 - 左上角的两个坐标,宽度和高度 - 以及一个浮点数的置信度。
很明显。用于检测模型。通常,它应该至少给出 2 个输出:边界框和关于边界框的 classes。
因此,(1,1,4) 是边界框的第 4 个结果。第一个数字 1 是根据您的图像提取到模型中的。由于您只有一个对象,因此第二个数字的输出为 1。此外,边界框的 YOLO 配置是 (x_center,y_center,width,height)
(1,1,1) 将相同,但现在 1 用于您选择的 class 的标签。
我正在尝试使用 YOLO 在 Android 应用程序中检测车牌。
所以我在 Google Colab 中训练了一个 YOLOv3 和一个 YOLOv4 模型。我使用 wonderfull project of Hunglc007 将这两个模型转换为 TensorFlow Lite,我还验证了它们是否正常工作并得到了以下结果:
但是当我试图理解模型的输出以在我的应用程序中对其进行调整时,我使用 netron:
得到了这个当模型被训练为仅检测一个对象时,为什么我有 2 个输出?
为什么输出的格式是这样的,这个[1,1,4]
代表什么?
编辑
可以找到 bboxes 的代码 here
boxes, scores, classes, valid_detections = tf.image.combined_non_max_suppression(
boxes=tf.reshape(boxes, (tf.shape(boxes)[0], -1, 1, 4)),
scores=tf.reshape(
pred_conf, (tf.shape(pred_conf)[0], -1, tf.shape(pred_conf)[-1])),
max_output_size_per_class=50,
max_total_size=50,
iou_threshold=FLAGS.iou,
score_threshold=FLAGS.score
)
pred_bbox = [boxes.numpy(), scores.numpy(), classes.numpy(), valid_detections.numpy()]
image = utils.draw_bbox(original_image, pred_bbox)
# image = utils.draw_bbox(image_data*255, pred_bbox)
image = Image.fromarray(image.astype(np.uint8))
image.show()
image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2RGB)
cv2.imwrite(FLAGS.output + 'detection' + str(count) + '.png', image)
我不是 Netron 方面的专家,但通过检查问题及其预期输出,我发现它应该为每次检测产生两个输出;检测矩形和检测置信度。因此,您询问的两个输出可能是由 4 个浮点数定义的矩形 - 左上角的两个坐标,宽度和高度 - 以及一个浮点数的置信度。
很明显。用于检测模型。通常,它应该至少给出 2 个输出:边界框和关于边界框的 classes。 因此,(1,1,4) 是边界框的第 4 个结果。第一个数字 1 是根据您的图像提取到模型中的。由于您只有一个对象,因此第二个数字的输出为 1。此外,边界框的 YOLO 配置是 (x_center,y_center,width,height)
(1,1,1) 将相同,但现在 1 用于您选择的 class 的标签。