在 FasterRCNN 中，为什么短边尺寸为 600 而最大尺寸为 1000？

In FasterRCNN, why is the short edge size 600 and the max size 1000?

object-detection
deep-learning
conv-neural-network

我阅读了以下代码：

https://github.com/endernewton/tf-faster-rcnn/blob/a3279943cbe6b880be34b53329a4fe3f971c2c37/lib/model/config.py#L63

600 是图像最短边的像素大小，1000 是缩放输入图像最长边的最大像素大小。有人可以解释一下吗？以及如何确定这些尺寸？我们要更改这些尺寸吗？

这些在here中的prep_im_for_blob函数中使用。其中 target_size 是 __C.TRAIN.SCALES = (600,)，max_size 是 __C.TRAIN.MAX_SIZE = 1000。它所做的是缩放图像，使调整后图像的最小尺寸等于__C.TRAIN.SCALES。但是，如果生成的图像变得大于 __C.TRAIN.MAX_SIZE，它会缩放，以便调整大小的图像的最大尺寸等于 __C.TRAIN.MAX_SIZE。如果您的输入图像通常在 600~1000 像素范围内，则无需更改这些值。

在 FasterRCNN 中，为什么短边尺寸为 600 而最大尺寸为 1000？

In FasterRCNN, why is the short edge size 600 and the max size 1000?

object-detection

deep-learning

conv-neural-network