用于地面实况跟踪的多目标跟踪 (MOT) 基准数据集格式

Question

我正在尝试评估我的对象检测+跟踪在 2DMOT Challenge 2015 行业中使用的标准数据集上的性能。我已经下载了数据集，但我无法理解标记的地面实况数据中的数据字段。

我已经理解了数据集的前六列，但无法理解其余四列。以下是目录中的示例数据：

frame no.   object_id   bb_left   bb_top   bb_width   bb_height   (?)   (?)       (?)      (?)
1           1           212       204      20         57          0     -3.1784   16.34    0.45739
1           2           223       181      36         104         1     -1.407    9.0212   0.68774

如果您知道这一点，请告诉我？

Answer 1

最后三个字段表示对象的 3D 真实世界坐标。在 2DMOT2015 的 ETH-Bahnhof、ETH-Sunnyday、PETS09-S2L1 和 TUD-Stadtmitte 的视频中可以找到类似的数据结构。对于地面实况，score=1。但有时它会在 b/w 0-1 之间变化，然后它充当标志值，零表示不考虑评估该行。所以数据字段的格式是：

帧号, object_id , bb_left , bb_top , bb_width , bb_height , 得分, X, Y, Z

用于地面实况跟踪的多目标跟踪 (MOT) 基准数据集格式

Multiple Object Tracking (MOT) benchmark data-set format for ground truth tracking

object-detection

video-tracking

tensorflow-datasets

yolo

faster-rcnn