如何取回与从更快的 r-cnn 对象检测过程中获得的强度点对应的坐标点？

Question

由于更快的 r-cnn 对象检测方法，我得到了一组强度值框（每个边界框可以被认为是一个深度为 3 的 3D 矩阵，对于 rgb 强度，a宽度和高度，然后可以通过灰度将其转换为二维矩阵）对应于包含对象的区域。我想要做的是为边界框内的每个强度单元格获取原始图像中的相应坐标点。任何想法如何做到这一点？

Answer 1

据我了解，您得到了一个 R-CNN 模型，它输出输入图像的裁剪片段，现在您想要将这些输出裁剪片段追溯到它们在原始图像中的坐标。

你所能做的就是简单地使用补丁相似性度量来找到原始位置。由于输出裁剪看起来 与原始图像中的自己完全一样，因此只需使用基于像素的距离：

在图像中找到距离最小（应为零）的位置，然后从中找到所需的坐标。

在python中：

d_min = 10**6
crop_size = crop.shape
for x in range(org_image.shape[0]-crop_size[0]):
    for y in range(org_image.shape[1]-crop_size[1]):
        d = np.abs(np.sum(np.sum(org_image[x:x+crop_size[0],y:y+crop_size[0]]-crop)))
        if d <= d_min:
            d_min = d
            coord = [x,y]

但是，您的模型中应该包含该信息（毕竟，它会根据某些坐标裁剪输出）。也许如果你添加一些关于你的实现的信息。

如何取回与从更快的 r-cnn 对象检测过程中获得的强度点对应的坐标点？

How to get back the co-ordinate points corresponding to the intensity points obtained from a faster r-cnn object detection process?

machine-learning

object-detection

computer-vision

conv-neural-network