在具有挑战性的图像上使用 YOLO 进行文本检测

Text Detection with YOLO on Challenging Images

我的图片如下所示：

我的目标是检测和识别数字 31197394。我已经微调了一个关于文本识别的深度神经网络。如果按以下格式提供，则可以成功识别正确的号码：

剩下的唯一任务就是检测相应的边界框。为此，我尝试了darknet。不幸的是，它没有识别任何东西。有没有人知道在这类图像上表现更好的网络？我知道，亚马逊识别能够解决这个任务。但我需要一个离线工作的解决方案。所以我仍然对存在有效的预训练网络抱有很高的希望。非常感谢您的帮助！

也许使用 R-CNN 来识别数字所在的区域，然后将该区域传递给您微调的神经网络以进行数字分类

别说暗网不行。这取决于您如何标记数据集。确实，您要识别的数字太小，因此如果您在预处理阶段不对图像进行任何更改，神经网络很难很好地识别它们。所以你可以做的肯定有效的是：
1---> 标注之前，将所有图像的大小增加到当前大小的 2 倍（例如 1000*1000）
2---> 将此大小 (1000 * 1000) 用于 darket 训练器，而不是 darknet 建议的默认大小 416 * 416。然后您必须更改配置文件
3---> 使用最新的 darknet 版本 (yolo v4)
4---> 在配置文件上，始终保持细分数为1.
我还指定此方法在内存中过于贪婪，因此有必要提供一台 RAM > 16 GB 的机器。优点是好用...

谢谢大家的回答！你是对的，我必须微调 yolo 才能让它工作。所以我创建了一个数据集并对 yolov5 进行了微调。我很惊讶结果有多好。尽管总共只有大约 300 张图像，但我预测正确数字的准确率为 97%。这主要是由于强大的增强。内存需求确实很大，但我可以在 32 GM RAM 机器上训练。我真的可以鼓励任何面临类似问题的人试一试 yolo！！

在具有挑战性的图像上使用 YOLO 进行文本检测

Text Detection with YOLO on Challenging Images

ocr

object-detection

computer-vision

yolo

yolov4