如何处理我的图像以帮助 Tesseract?

How to process my images to help Tesseract?

我有一些图像只包含数字和一个分号。

示例:

你可以在这里看到更多:https://imgur.com/a/54dsl6h

它们对我来说看起来非常干净和直接,但 Tesseract 认为它们是空的 "pages" (Empty page!!)。

我用字符列表尝试了 oem 1 和 oem 0:

如何让 Tesseract 更好地识别字符?

总体而言,Tesseract 仍然给我相当糟糕的结果,但使用简单的扩张算法使文本更粗略有帮助。

最后,由于字体真的是正方形,我用了一个技巧,我为每个数字定义了一堆线段,并且根据哪些线段与数字相交或不相交,我可以确定99% 准确度是哪个数字。