YOLO 无论如何都会与 VGG-16 有不同的表现吗?使用它代替 VGG 进行图像分类是否有意义?
Will YOLO anyhow perform differently from VGG-16. Will using it for image classification instead of VGG make sense?
我已经使用 VGG 作为图像分类模型实现了图像描述。我读过 YOLO 是一种快速图像分类和检测模型,它主要用于多目标检测。但是对于图像字幕,我只想要 类 而不是边界框。
我最初的猜测是使用 YOLO 进行图像分类没有意义。 YOLO 用于对象检测的速度很快,但用于图像分类的网络比 YOLO 更快,因为它们所做的工作较少(因此比较不公平)。
根据提供的基准测试here,我们可以考虑具有 27 层的 Inception-v1 网络。 YOLO 基础网络有 24 层。现在,使用最新的 cuDNN,在 Maxwell TitanX 上,Inception v1 处理 16 张图像需要 19.29 毫秒,换算成约 830 fps(当您传递单个图像时再次期望较低的 fps,因为 GPU 处理小批量的速度很快,即进行一次前向传递使用 16 个 mini-batch 比使用 mini-batch 大小 1) 进行 16 次前向传球要快。
YOLO 的最新版本以 67 fps 运行,其微型版本以 207 fps 运行,仍然比 Inception v1 慢很多(请注意,YOLO 没有将 Inception v1 作为其基础网络,但层数仍然相当) .
所以,简而言之,我没有看到使用 YOLO 进行图像分类有任何速度优势。现在,关于准确性,如果对象很小,我不能确定 YOLO 是否能够比传统图像分类网络更好地检测对象的存在。
我完全同意Parag S. Chandakkar 在他的回答中提到的内容。与 VGG-16 和其他对象分类网络相比,YOLO 和 RCNN 这两种最常用的对象检测模型如果仅用于分类则速度较慢。 然而,为了支持 YOLO,我想提一下,您可以创建一个模型来进行图像描述和图像对象检测。
YOLO 生成一个长度为 1470 的向量。
调整 YOLO 以生成数据集支持的 类 个数,即让 YOLO 生成一个向量 49*(数据集中 类 个数)+ 98 + 392.
使用此向量生成边界框。
- 进一步调整此向量以生成大小等于 类 数量的向量。您可以使用相同的致密层。
- 将此向量传递给您的语言模型以生成字幕。
综上所述,您可以先生成边界框,然后进一步调整该向量以生成字幕。
我已经使用 VGG 作为图像分类模型实现了图像描述。我读过 YOLO 是一种快速图像分类和检测模型,它主要用于多目标检测。但是对于图像字幕,我只想要 类 而不是边界框。
我最初的猜测是使用 YOLO 进行图像分类没有意义。 YOLO 用于对象检测的速度很快,但用于图像分类的网络比 YOLO 更快,因为它们所做的工作较少(因此比较不公平)。
根据提供的基准测试here,我们可以考虑具有 27 层的 Inception-v1 网络。 YOLO 基础网络有 24 层。现在,使用最新的 cuDNN,在 Maxwell TitanX 上,Inception v1 处理 16 张图像需要 19.29 毫秒,换算成约 830 fps(当您传递单个图像时再次期望较低的 fps,因为 GPU 处理小批量的速度很快,即进行一次前向传递使用 16 个 mini-batch 比使用 mini-batch 大小 1) 进行 16 次前向传球要快。
YOLO 的最新版本以 67 fps 运行,其微型版本以 207 fps 运行,仍然比 Inception v1 慢很多(请注意,YOLO 没有将 Inception v1 作为其基础网络,但层数仍然相当) .
所以,简而言之,我没有看到使用 YOLO 进行图像分类有任何速度优势。现在,关于准确性,如果对象很小,我不能确定 YOLO 是否能够比传统图像分类网络更好地检测对象的存在。
我完全同意Parag S. Chandakkar 在他的回答中提到的内容。与 VGG-16 和其他对象分类网络相比,YOLO 和 RCNN 这两种最常用的对象检测模型如果仅用于分类则速度较慢。 然而,为了支持 YOLO,我想提一下,您可以创建一个模型来进行图像描述和图像对象检测。
YOLO 生成一个长度为 1470 的向量。
调整 YOLO 以生成数据集支持的 类 个数,即让 YOLO 生成一个向量 49*(数据集中 类 个数)+ 98 + 392.
使用此向量生成边界框。
- 进一步调整此向量以生成大小等于 类 数量的向量。您可以使用相同的致密层。
- 将此向量传递给您的语言模型以生成字幕。
综上所述,您可以先生成边界框,然后进一步调整该向量以生成字幕。