通过特征匹配估计两个相机之间的真实世界转换

Estimating real world translation between two cameras through feature matching

我有两个经过校准的相机正在观察重叠的场景。我正在尝试估计 camera2 相对于 camera1 的姿势(因为 camera2 可以移动;但 camera1 和 2 总会有一些重叠的特征)。

我正在使用 SIFT 识别特征,计算基本矩阵并最终计算基本矩阵。一旦我解决了 R 和 t(四种可能的解决方案之一),我就获得了按比例缩放的平移,但是是否有可能以某种方式计算现实世界单位的平移?场景中没有已知大小的物体;但我确实有两个相机的校准数据。我浏览了一些关于运动结构和立体姿态估计的信息,但比例的概念和与现实世界翻译的相关性让我感到困惑。

谢谢!

这是运动结构的经典尺度问题。

简短的回答是,您必须有一些其他信息来源才能解决比例问题。

此信息可以是关于场景中的点(例如地形图),或从移动相机(IMU、GPS 等)读取的一些传感器