什么是边界框的尺度不变性和 log-space 平移?
What is scale-invariance and log-space translations of a bounding box?
在慢速 R-CNN 论文中,边界框回归的目标是学习将提议的边界框 P 映射到真实框 G 的变换,我们根据四个函数 dx(P) 对变换进行参数化,dy(P),dw(P),dh(P).
前两个指定P的边界框中心的尺度不变平移,而
第二两个指定log-space P的边界框相对于一个对象proposal的宽度和高度的翻译.
这与 Fast-RCNN 论文中用于 BB 预测的技术相同。!
Question1. Could anyone help me to understand the relevance of scale-invariance and log-space(both) of the bounding box and how these function capture these two aspects?
Question2. How the above mentioned BB scale-invariant translation is different from achieving scale-invariant object detection(explained below)?
我的意思是在fast R-CNN中作者指出以下2种方法是在目标检测中实现尺度不变性:
首先,蛮力方法,在训练和测试期间,每个图像都以预定义的像素大小进行处理。网络必须直接从训练数据中学习尺度不变的目标检测
第二种方法是使用图像金字塔。
请随意引用研究论文,以便我阅读深入理解。
这些函数的目标dx(P), dy(P), dw(P), dh(P)
是从proposal box转换为groundtruth box。它们被建模为来自特征映射的池化特征的线性函数,并且它们包含可学习的参数(权重)。
论文指出 dx(P), dy(P)
指定了 P 边界框中心的尺度不变平移,注意它是 他们指定但不是 ,所以这是什么翻译?翻译看起来像这样:
要理解什么是尺度不变我们可以从为什么需要它开始?因为 proposal bboxes 可能有不同的大小。 在下图中,拿着球棒的人和投掷者的提议 bbox 大小不同,两者在 ROI 池化后将表示为固定相同形状的特征向量(FIXED AND SAME SHAPE!!)。 regressor在做预测的时候,只是简单的预测值dx(P)
和dy(P)
,并不区分特征向量来自哪个proposal bbox。将这个值应用于输入图像时,因为我们已经有了proposal bboxes (Px, Py, Pw, Ph
)提供的信息,输入图像中bboxes的中心可以通过变换简单地计算出来! (请注意,这两个提案都是 class 人的,因此回归量可能相同,否则回归量不同)
至于后两次变换:
如果你在两边应用对数变换,你会看到它是:
dw(P)
和dh(P)
指定一个日志space翻译!
关于第二个问题,边界框回归是整个检测管道的一部分,只用于bbox回归。除了bbox回归,目标检测还必须处理图像classification、proposal generation等。例如,在proposal生成期间应用金字塔图像。
在慢速 R-CNN 论文中,边界框回归的目标是学习将提议的边界框 P 映射到真实框 G 的变换,我们根据四个函数 dx(P) 对变换进行参数化,dy(P),dw(P),dh(P).
前两个指定P的边界框中心的尺度不变平移,而
第二两个指定log-space P的边界框相对于一个对象proposal的宽度和高度的翻译.
这与 Fast-RCNN 论文中用于 BB 预测的技术相同。!
Question1. Could anyone help me to understand the relevance of scale-invariance and log-space(both) of the bounding box and how these function capture these two aspects?
Question2. How the above mentioned BB scale-invariant translation is different from achieving scale-invariant object detection(explained below)?
我的意思是在fast R-CNN中作者指出以下2种方法是在目标检测中实现尺度不变性:
首先,蛮力方法,在训练和测试期间,每个图像都以预定义的像素大小进行处理。网络必须直接从训练数据中学习尺度不变的目标检测
第二种方法是使用图像金字塔。
请随意引用研究论文,以便我阅读深入理解。
这些函数的目标dx(P), dy(P), dw(P), dh(P)
是从proposal box转换为groundtruth box。它们被建模为来自特征映射的池化特征的线性函数,并且它们包含可学习的参数(权重)。
论文指出 dx(P), dy(P)
指定了 P 边界框中心的尺度不变平移,注意它是 他们指定但不是 ,所以这是什么翻译?翻译看起来像这样:
要理解什么是尺度不变我们可以从为什么需要它开始?因为 proposal bboxes 可能有不同的大小。 在下图中,拿着球棒的人和投掷者的提议 bbox 大小不同,两者在 ROI 池化后将表示为固定相同形状的特征向量(FIXED AND SAME SHAPE!!)。 regressor在做预测的时候,只是简单的预测值dx(P)
和dy(P)
,并不区分特征向量来自哪个proposal bbox。将这个值应用于输入图像时,因为我们已经有了proposal bboxes (Px, Py, Pw, Ph
)提供的信息,输入图像中bboxes的中心可以通过变换简单地计算出来! (请注意,这两个提案都是 class 人的,因此回归量可能相同,否则回归量不同)
至于后两次变换:
如果你在两边应用对数变换,你会看到它是:
dw(P)
和dh(P)
指定一个日志space翻译!
关于第二个问题,边界框回归是整个检测管道的一部分,只用于bbox回归。除了bbox回归,目标检测还必须处理图像classification、proposal generation等。例如,在proposal生成期间应用金字塔图像。