什么时候使用 YOLO vs vanilla CNN?
When to use YOLO vs vanilla CNN?
我想要构建一个可以识别图像中对象的计算机视觉模型。例如,识别某人手的边界框的 (x, y, width, height) 像素坐标。我知道像 YOLO 和 RCNN 这样的复杂对象检测算法,但我很好奇为什么我不能只创建一个输出层为 4 个神经元(对于每个坐标值)和线性激活函数的普通 Conv Net?
为清楚起见,我不想识别图像中的多个对象。假设每张图片中只有一只手。
如有任何帮助,我们将不胜感激!
你肯定能做到,没有数学能阻止你或任何事情。毕竟YOLO是为多对象设计的
一些想法:
- 你的模型总是会猜测一些盒子,即使图像中没有手。
- 如果您确实使用 YOLO,您将获得使用一些预训练网络的好处,这使得它在新环境中使用模型时更健壮(至少更健壮)。
我想要构建一个可以识别图像中对象的计算机视觉模型。例如,识别某人手的边界框的 (x, y, width, height) 像素坐标。我知道像 YOLO 和 RCNN 这样的复杂对象检测算法,但我很好奇为什么我不能只创建一个输出层为 4 个神经元(对于每个坐标值)和线性激活函数的普通 Conv Net?
为清楚起见,我不想识别图像中的多个对象。假设每张图片中只有一只手。
如有任何帮助,我们将不胜感激!
你肯定能做到,没有数学能阻止你或任何事情。毕竟YOLO是为多对象设计的
一些想法:
- 你的模型总是会猜测一些盒子,即使图像中没有手。
- 如果您确实使用 YOLO,您将获得使用一些预训练网络的好处,这使得它在新环境中使用模型时更健壮(至少更健壮)。