什么是边界框的尺度不变性和 log-space 平移?

What is scale-invariance and log-space translations of a bounding box?

在慢速 R-CNN 论文中,边界框回归的目标是学习将提议的边界框 P 映射到真实框 G 的变换,我们根据四个函数 dx(P) 对变换进行参数化,dy(P),dw(P),dh(P).

这与 Fast-RCNN 论文中用于 BB 预测的技术相同。!

Question1. Could anyone help me to understand the relevance of scale-invariance and log-space(both) of the bounding box and how these function capture these two aspects?

Question2. How the above mentioned BB scale-invariant translation is different from achieving scale-invariant object detection(explained below)?

我的意思是在fast R-CNN中作者指出以下2种方法是在目标检测中实现尺度不变性:

请随意引用研究论文,以便我阅读深入理解。

这些函数的目标dx(P), dy(P), dw(P), dh(P)是从proposal box转换为groundtruth box。它们被建模为来自特征映射的池化特征的线性函数,并且它们包含可学习的参数(权重)。

论文指出 dx(P), dy(P) 指定了 P 边界框中心的尺度不变平移,注意它是 他们指定但不是 ,所以这是什么翻译?翻译看起来像这样:

要理解什么是尺度不变我们可以从为什么需要它开始?因为 proposal bboxes 可能有不同的大小。 在下图中,拿着球棒的人和投掷者的提议 bbox 大小不同,两者在 ROI 池化后将表示为固定相同形状的特征向量(FIXED AND SAME SHAPE!!)。 regressor在做预测的时候,只是简单的预测值dx(P)dy(P),并不区分特征向量来自哪个proposal bbox。将这个值应用于输入图像时,因为我们已经有了proposal bboxes (Px, Py, Pw, Ph)提供的信息,输入图像中bboxes的中心可以通过变换简单地计算出来! (请注意,这两个提案都是 class 人的,因此回归量可能相同,否则回归量不同)

至于后两次变换:

如果你在两边应用对数变换,你会看到它是:


dw(P)dh(P)指定一个日志space翻译!

关于第二个问题,边界框回归是整个检测管道的一部分,只用于bbox回归。除了bbox回归,目标检测还必须处理图像classification、proposal generation等。例如,在proposal生成期间应用金字塔图像。