如何处理我的图像以帮助 Tesseract？

How to process my images to help Tesseract?

我有一些图像只包含数字和一个分号。

示例：

你可以在这里看到更多：https://imgur.com/a/54dsl6h

它们对我来说看起来非常干净和直接，但 Tesseract 认为它们是空的 "pages" (Empty page!!)。

我用字符列表尝试了 oem 1 和 oem 0：

tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0
tesseract processed/35.0.png stdout

如何让 Tesseract 更好地识别字符？

总体而言，Tesseract 仍然给我相当糟糕的结果，但使用简单的扩张算法使文本更粗略有帮助。

最后，由于字体真的是正方形，我用了一个技巧，我为每个数字定义了一堆线段，并且根据哪些线段与数字相交或不相交，我可以确定99% 准确度是哪个数字。