Align feature map with ego motion(缩放比例问题)
Align feature map with ego motion (problem of zooming ratio )
我想使用自我运动对齐特征图,如论文中所述An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds
我用VoxelNet作为backbone,会把图片缩小8倍。我的体素大小是 0.1m x 0.1m x 0.2m(height)
所以给定输入鸟瞰图像尺寸1408 x 1024
,
提取的特征图大小为176 x 128
,缩小了8倍。
汽车在“图像”(实际上是点云)之间的自我平移在 x 和 y 方向上均为 1 米。我把feature map调整为1.25像素对吗?
1m/0.1m = 10 # meter to pixel
10/8 = 1.25 # shrink ratio of the network
然而,通过实验,我发现如果在现实世界中将特征图调整为仅 1/32 像素的 1 米平移,则特征图对齐得更好。
Ps。我正在使用函数 torch.nn.functional.affine_grid
执行翻译,它采用 2x3 仿射矩阵作为输入。
是我用的函数torch.nn.functional.affine_grid
造成的
我在使用之前没有完全理解这个功能
These vivid images 将非常有助于展示此函数的实际作用(与 Numpy 中的仿射变换相比。
我想使用自我运动对齐特征图,如论文中所述An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds
我用VoxelNet作为backbone,会把图片缩小8倍。我的体素大小是 0.1m x 0.1m x 0.2m(height)
所以给定输入鸟瞰图像尺寸1408 x 1024
,
提取的特征图大小为176 x 128
,缩小了8倍。
汽车在“图像”(实际上是点云)之间的自我平移在 x 和 y 方向上均为 1 米。我把feature map调整为1.25像素对吗?
1m/0.1m = 10 # meter to pixel
10/8 = 1.25 # shrink ratio of the network
然而,通过实验,我发现如果在现实世界中将特征图调整为仅 1/32 像素的 1 米平移,则特征图对齐得更好。
Ps。我正在使用函数 torch.nn.functional.affine_grid
执行翻译,它采用 2x3 仿射矩阵作为输入。
是我用的函数torch.nn.functional.affine_grid
造成的
我在使用之前没有完全理解这个功能
These vivid images 将非常有助于展示此函数的实际作用(与 Numpy 中的仿射变换相比。