在 FasterRCNN 中,为什么短边尺寸为 600 而最大尺寸为 1000?

In FasterRCNN, why is the short edge size 600 and the max size 1000?

我阅读了以下代码:

https://github.com/endernewton/tf-faster-rcnn/blob/a3279943cbe6b880be34b53329a4fe3f971c2c37/lib/model/config.py#L63

600 是图像最短边的像素大小,1000 是缩放输入图像最长边的最大像素大小。 有人可以解释一下吗?以及如何确定这些尺寸?我们要更改这些尺寸吗?

这些在here中的prep_im_for_blob函数中使用。其中 target_size__C.TRAIN.SCALES = (600,),max_size 是 __C.TRAIN.MAX_SIZE = 1000。它所做的是缩放图像,使调整后图像的最小尺寸等于__C.TRAIN.SCALES。但是,如果生成的图像变得大于 __C.TRAIN.MAX_SIZE,它会缩放,以便调整大小的图像的最大尺寸等于 __C.TRAIN.MAX_SIZE。如果您的输入图像通常在 600~1000 像素范围内,则无需更改这些值。