Align feature map with ego motion(缩放比例问题)

Align feature map with ego motion (problem of zooming ratio )

我想使用自我运动对齐特征图,如论文中所述An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds

我用VoxelNet作为backbone,会把图片缩小8倍。我的体素大小是 0.1m x 0.1m x 0.2m(height)

所以给定输入鸟瞰图像尺寸1408 x 1024,

提取的特征图大小为176 x 128,缩小了8倍。


汽车在“图像”(实际上是点云)之间的自我平移在 x 和 y 方向上均为 1 米。我把feature map调整为1.25像素对吗?

1m/0.1m = 10  # meter to pixel
10/8 = 1.25   # shrink ratio of the network

然而,通过实验,我发现如果在现实世界中将特征图调整为仅 1/32 像素的 1 米平移,则特征图对齐得更好。


Ps。我正在使用函数 torch.nn.functional.affine_grid 执行翻译,它采用 2x3 仿射矩阵作为输入。

是我用的函数torch.nn.functional.affine_grid造成的

我在使用之前没有完全理解这个功能

These vivid images 将非常有助于展示此函数的实际作用(与 Numpy 中的仿射变换相比。