为什么YOLOv3计算调整anchor boxes的偏移值,而不是直接输出bounding box的维度?
Why YOLOv3 calculate the offset values for adjusting the anchor boxes, not directly output the dimension of the bounding box?
我正在尝试了解 YOLOv3 的工作原理。还有这件事让我很困惑:YOLO可以确定bounding box(坐标和尺寸),但为什么不直接输出这些值,而是用它们来调整anchor boxes?
大多数对象检测算法计算边界框与固定锚点相比的偏移量(x、y、宽度、高度)。
通常生成锚点以遵循固定网格:为网格上的每个位置创建一组不同纵横比和不同区域的锚点。
对于学习算法来说,输出相对于固定锚点的偏移量可以从中推导出整体坐标,而不是试图直接找到整体坐标,因为它是局部和位置不变的特征,要容易得多。
意思是如果图片的左上角有一只狗,其边界框居中不准,则要求算法输出偏移量,就好像狗在图片的右下角,这使得它能够稳健地移动并且不需要它学习图像中对象的全局位置。
我正在尝试了解 YOLOv3 的工作原理。还有这件事让我很困惑:YOLO可以确定bounding box(坐标和尺寸),但为什么不直接输出这些值,而是用它们来调整anchor boxes?
大多数对象检测算法计算边界框与固定锚点相比的偏移量(x、y、宽度、高度)。
通常生成锚点以遵循固定网格:为网格上的每个位置创建一组不同纵横比和不同区域的锚点。
对于学习算法来说,输出相对于固定锚点的偏移量可以从中推导出整体坐标,而不是试图直接找到整体坐标,因为它是局部和位置不变的特征,要容易得多。
意思是如果图片的左上角有一只狗,其边界框居中不准,则要求算法输出偏移量,就好像狗在图片的右下角,这使得它能够稳健地移动并且不需要它学习图像中对象的全局位置。