如何使用 tesseract 和 python 正确识别打字机字体

Question

我在 python 中使用 Tesseract-OCR 3.05 开发版对一些文档进行 OCR。我遇到的主要问题是打字机字体中的数字 4。它几乎总是错过它并输出空而不是 4 或一些不正确的文本。我已经上传了示例图片。

我也不必使用 tesseract，如果您对其他（更好的）引擎有建议，请告诉我。

Answer 1

如果您只查找数字，您可以添加一个只包含数字的白名单。 C++ 中的示例：

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

如果这不起作用，我建议您针对该特定字体训练 tesseract-ocr。可以在此处找到清晰明了的指南：https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

希望这有助于解决您的问题。 :)

How to properly OCR typewriter fonts using tesseract and python