在具有挑战性的图像上使用 YOLO 进行文本检测

Text Detection with YOLO on Challenging Images

我的图片如下所示:

我的目标是检测和识别数字 31197394。我已经微调了一个关于文本识别的深度神经网络。如果按以下格式提供,则可以成功识别正确的号码:

剩下的唯一任务就是检测相应的边界框。为此,我尝试了darknet。不幸的是,它没有识别任何东西。有没有人知道在这类图像上表现更好的网络?我知道,亚马逊识别能够解决这个任务。但我需要一个离线工作的解决方案。所以我仍然对存在有效的预训练网络抱有很高的希望。非常感谢您的帮助!

也许使用 R-CNN 来识别数字所在的区域,然后将该区域传递给您微调的神经网络以进行数字分类

别说暗网不行。这取决于您如何标记数据集。确实,您要识别的数字太小,因此如果您在预处理阶段不对图像进行任何更改,神经网络很难很好地识别它们。所以你可以做的肯定有效的是:
1---> 标注之前,将所有图像的大小增加到当前大小的 2 倍(例如 1000*1000)
2---> 将此大小 (1000 * 1000) 用于 darket 训练器,而不是 darknet 建议的默认大小 416 * 416。然后您必须更改配置文件
3---> 使用最新的 darknet 版本 (yolo v4)
4---> 在配置文件上,始终保持细分数为1.
我还指定此方法在内存中过于贪婪,因此有必要提供一台 RAM > 16 GB 的机器。优点是好用...

谢谢大家的回答!你是对的,我必须微调 yolo 才能让它工作。所以我创建了一个数据集并对 yolov5 进行了微调。我很惊讶结果有多好。尽管总共只有大约 300 张图像,但我预测正确数字的准确率为 97%。这主要是由于强大的增强。内存需求确实很大,但我可以在 32 GM RAM 机器上训练。我真的可以鼓励任何面临类似问题的人试一试 yolo!!