理解 Faster rcnn

Understanding Faster rcnn

我正在尝试理解 fast(er) RCNN，以下是我正在搜索的问题：

要训练，FastRcnn 模型是否必须提供边界框训练阶段的信息。
如果你必须提供接线盒信息，那么它的作用是什么？ ROI 图层。
我们可以使用预训练模型吗，它只训练分类，不训练对象检测并将其用于 Fast(er) RCNN

您的答案：

1.- 是的。

2.- ROI 层用于从可变大小的图像生成固定大小的向量。这是通过使用最大池执行的，但不是使用典型的 n x n 单元格，而是将图像划分为 n x n 非重叠区域（大小不同），并输出每个区域中的最大值。 ROI 层还负责将输入 space 中的边界框投影到特征 space.

3.- Faster R-CNN 必须与预训练网络（通常在 ImageNet 上）一起使用，它不能进行端到端训练。这在论文中可能有点隐藏，但作者确实提到他们使用来自预训练网络（VGG、ResNet、Inception 等）的特征。