使用视觉检测系统的自动驾驶汽车如何处理 n 种可能性作为输入

How do self driving cars using vision detection systems handle the n possibilities as inputs

我知道卷积神经网络可以用来解决这个问题,但是如果你看自动驾驶汽车的视频,比如特斯拉自动驾驶仪,他们仍然使用视觉检测和标记系统作为他们神经网络的输入。我想知道自动驾驶汽车如何解决 N 个可能数量的检测对象的问题,并且对于每个输入都有不同数量的信息来输入。由于神经网络结构非常严格,我认为这会导致问题。任何解释都会很有帮助;但是,如果您确实有一篇科学论文,我们将不胜感激!

这些网络不输出 class 标签,例如汽车、人或人行道,而是 N 个对象的概率分布。最终的决定是在后面做出的,基本上是取概率最高的对象作为预测。该模型是在大量图像上训练的,正如您所说,所有这些图像都包含不同数量的对象,但是由于模型本身输出所有 N 个对象的概率,而不管输入中的对象数量如何,这已经是模型受过训练。因此,如果图像中不存在对象类型,他们将学习输出接近于 0 的概率。

因为这是他们受过训练的东西,所以他们也可以在推理过程中这样做。当然,如果某些对象类型在数据中非常罕见,可能会出现一些问题,但这是一个 class 不平衡问题。