什么时候使用 YOLO vs vanilla CNN？

When to use YOLO vs vanilla CNN?

conv-neural-network
keras
tensorflow
yolo

我想要构建一个可以识别图像中对象的计算机视觉模型。例如，识别某人手的边界框的 (x, y, width, height) 像素坐标。我知道像 YOLO 和 RCNN 这样的复杂对象检测算法，但我很好奇为什么我不能只创建一个输出层为 4 个神经元（对于每个坐标值）和线性激活函数的普通 Conv Net？

为清楚起见，我不想识别图像中的多个对象。假设每张图片中只有一只手。

如有任何帮助，我们将不胜感激！

你肯定能做到，没有数学能阻止你或任何事情。毕竟YOLO是为多对象设计的

一些想法：

你的模型总是会猜测一些盒子，即使图像中没有手。
如果您确实使用 YOLO，您将获得使用一些预训练网络的好处，这使得它在新环境中使用模型时更健壮（至少更健壮）。

什么时候使用 YOLO vs vanilla CNN？

When to use YOLO vs vanilla CNN?

conv-neural-network

keras

tensorflow

yolo