"BB regression algorithms used in R-CNN variants" 与 "BB in YOLO" 本地化技术有何区别?

What's the difference between "BB regression algorithms used in R-CNN variants" vs "BB in YOLO" localization techniques?

问题:

What's the difference between the bounding box(BB) produced by "BB regression algorithms in region-based object detectors" vs "bounding box in single shot detectors"? and can they be used interchangeably if not why?

在了解用于对象检测的 R-CNN 和 Yolo 算法的变体时,我遇到了执行对象检测的两种主要技术,即基于区域的 (R-CNN) 和基于小众滑动 window 的 (YOLO ).

两者都在两种机制中使用不同的变体(从复杂到简单),但最终,它们只是使用边界框来定位图像中的对象!。我只是想专注于下面的本地化(假设正在进行分类!),因为这与提出的问题更相关并简要解释了我的理解:

两种算法:

我试图在更抽象的层面上理解这两种本地化技术(以及对这两种技术有深入的了解!),以便更清楚地了解:

  • in what sense they are different?, &

  • why 2 were created, I mean what are the failure/success points of 1 on the another?.

  • and can they be used interchangeably, if not then why?

如果我有什么地方不对,请随时纠正我,非常感谢您的反馈!引用研究论文的任何特定部分会更有价值!

本质区别在于两阶段 Faster R-CNN 类更准确,而单阶段 YOLO/SSD-like 更快。

在双阶段架构中,第一阶段通常是区域提议,而第二阶段是分类和更准确的定位。你可以认为第一阶段类似于单阶段架构,区别在于region proposal仅将"object"与"background"分开,而单阶段区分所有对象[=21] =].更明确地说,在第一阶段,同样以类似 window 的滑动方式,RPN 表示是否存在对象,如果存在 - 粗略给出它所在的区域(边界框) .这个区域被第二阶段用于分类和边界框回归(为了更好的定位),首先汇集建议区域的相关特征,然后通过类似 Fast R-CNN 的架构(进行分类+回归) .

关于您关于它们之间互换的问题 - 您为什么要这样做?通常,您会根据最紧迫的需求选择一种架构(例如 latency/power/accuracy),并且您不想在它们之间进行互换,除非有一些复杂的想法可以以某种方式帮助您。