为什么要将整个图像放在一个 tfrecord 文件中?为什么不根据边界框裁剪并将裁剪后的对象放入 tfrecord 文件中?

Why put the whole image in a tfrecord file? Why not just crop according to the bounding-box and put the cropped object in the tfrecord file?

为什么要将整个图像放在一个 tfrecord 文件中?为什么不根据边界框裁剪图像并将裁剪后的对象放入 tfrecord 文件中?这应该会大大减小该文件的大小。

因为您想学习检测该对象在图像中的位置。在图像 classification 中,您将按照您的建议裁剪图像,网络将输出 "car" 或 "not car"。在对象检测中,网络将输出对象的边界框以及 class。 ("car is at x1-x2-y1-y2") 它通过将整张图片与损失函数的边界框进行学习。