如何根据图像质量确定使用哪种 OCR 方法
How to determine which method of OCR to use depending on images quality
我在问一个问题,因为我两周的研究开始让我很困惑。
我有一堆图像,我想从中获取运行时的数字(强化学习中的奖励功能需要它)。问题是,它们对我来说非常清楚(我知道这对 OCR 系统来说是完全不同的事情,但这就是为什么我提供额外的图像来显示我在说什么)
我认为那是因为他们相当清楚。所以我尝试使用 PyTesseract,当它不起作用时,我尝试研究哪些其他方法可能对我有用。
...这就是我的搜索在这里结束的方式,因为两周来试图找出最适合我的问题的方法提出了更多问题。
目前我认为最好的解决办法是从MNIST/SVNH数据集创建数字识别模型,但是是不是有点矫枉过正?我的意思是,图像是标准化的,它们是灰度的,它们很小,数字字体保持不变,所以我想有更简单的方法来修改那些 images/using 不同的 OCR 方法。
这就是为什么我要问两个问题:
- 如果不是模型,哪种方法对我的情况最有用
使用 MNIST/SVNH 个数据集训练?
- 是否有任何类型的 documentation/books/sources 可以使基础架构的实际选择更容易?我的意思是,让我们说
将来我会再次计划使用哪个OCR系统。
我应该在什么基础上做出选择?是否纯粹是试错
事情?
如果你要认的是那7段数字,什么OCR包都别想了
使用 window 的轮廓来查找数字的大小和位置。然后计算七个预定义区域中的黑色像素,面向线段。
我在问一个问题,因为我两周的研究开始让我很困惑。
我有一堆图像,我想从中获取运行时的数字(强化学习中的奖励功能需要它)。问题是,它们对我来说非常清楚(我知道这对 OCR 系统来说是完全不同的事情,但这就是为什么我提供额外的图像来显示我在说什么)
我认为那是因为他们相当清楚。所以我尝试使用 PyTesseract,当它不起作用时,我尝试研究哪些其他方法可能对我有用。
...这就是我的搜索在这里结束的方式,因为两周来试图找出最适合我的问题的方法提出了更多问题。
目前我认为最好的解决办法是从MNIST/SVNH数据集创建数字识别模型,但是是不是有点矫枉过正?我的意思是,图像是标准化的,它们是灰度的,它们很小,数字字体保持不变,所以我想有更简单的方法来修改那些 images/using 不同的 OCR 方法。
这就是为什么我要问两个问题:
- 如果不是模型,哪种方法对我的情况最有用 使用 MNIST/SVNH 个数据集训练?
- 是否有任何类型的 documentation/books/sources 可以使基础架构的实际选择更容易?我的意思是,让我们说 将来我会再次计划使用哪个OCR系统。 我应该在什么基础上做出选择?是否纯粹是试错 事情?
如果你要认的是那7段数字,什么OCR包都别想了
使用 window 的轮廓来查找数字的大小和位置。然后计算七个预定义区域中的黑色像素,面向线段。