如何处理我的图像以帮助 Tesseract?
How to process my images to help Tesseract?
我有一些图像只包含数字和一个分号。
示例:
你可以在这里看到更多:https://imgur.com/a/54dsl6h
它们对我来说看起来非常干净和直接,但 Tesseract 认为它们是空的 "pages" (Empty page!!
)。
我用字符列表尝试了 oem 1 和 oem 0:
tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0
tesseract processed/35.0.png stdout
如何让 Tesseract 更好地识别字符?
总体而言,Tesseract 仍然给我相当糟糕的结果,但使用简单的扩张算法使文本更粗略有帮助。
最后,由于字体真的是正方形,我用了一个技巧,我为每个数字定义了一堆线段,并且根据哪些线段与数字相交或不相交,我可以确定99% 准确度是哪个数字。
我有一些图像只包含数字和一个分号。
示例:
你可以在这里看到更多:https://imgur.com/a/54dsl6h
它们对我来说看起来非常干净和直接,但 Tesseract 认为它们是空的 "pages" (Empty page!!
)。
我用字符列表尝试了 oem 1 和 oem 0:
tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0
tesseract processed/35.0.png stdout
如何让 Tesseract 更好地识别字符?
总体而言,Tesseract 仍然给我相当糟糕的结果,但使用简单的扩张算法使文本更粗略有帮助。
最后,由于字体真的是正方形,我用了一个技巧,我为每个数字定义了一堆线段,并且根据哪些线段与数字相交或不相交,我可以确定99% 准确度是哪个数字。