理解 Faster rcnn

Understanding Faster rcnn

我正在尝试理解 fast(er) RCNN,以下是我正在搜索的问题:

  1. 要训练,FastRcnn 模型是否必须提供边界框 训练阶段的信息。
  2. 如果你必须提供接线盒信息,那么它的作用是什么? ROI 图层。
  3. 我们可以使用预训练模型吗,它只训练分类,不训练 对象检测并将其用于 Fast(er) RCNN

您的答案:

1.- 是的。

2.- ROI 层用于从可变大小的图像生成固定大小的向量。这是通过使用最大池执行的,但不是使用典型的 n x n 单元格,而是将图像划分为 n x n 非重叠区域(大小不同),并输出每个区域中的最大值。 ROI 层还负责将输入 space 中的边界框投影到特征 space.

3.- Faster R-CNN 必须与预训练网络(通常在 ImageNet 上)一起使用,它不能进行端到端训练。这在论文中可能有点隐藏,但作者确实提到他们使用来自预训练网络(VGG、ResNet、Inception 等)的特征。