lang='deu' 上数字的 Tesseract OCR 问题

Question

今天我遇到了一个我根本无法解释的OCR问题。

使用 Terreract 5.0 和 Python3.9

我有一个很清楚的数字：

当我使用标准设置制作 OCR 时，没问题，工作正常。

在我的应用程序中，文本形式 99% 是德语，所以我使用

text=pytesseract.image_to_string(im,lang='deu')

它工作正常，但在一些非常非常清晰的数字上，tesseract 得到了一些非常疯狂的结果。在附图上，OCR结果是73185879，很奇怪...

我已经尝试过使用白名单， text = pytesseract.image_to_string(im, config='-c tessedit_char_whitelist=-0123456789') 但结果是一样的

这是另一个号码：

当我用标准配置运行时，结果是 19215056 当我切换到德语字符集时，它变得更加疯狂： 7192153056

有人知道如何处理吗？有没有另一种方法可以使用标准语言并添加一些特殊字符，如 'ä,ß' 作为解决方法？感谢任何提示

编辑：

我将图片缩小了 30%，OCR 效果很好，所以问题可能出在检测大字符上？

Answer 1

肯定是字体大小导致了这个问题。我通过我的 tesseract 应用程序运行做了它，大图像的置信度为 81%，小图像高达 96%。类似问题在这里：https://github.com/tesseract-ocr/tesseract/issues/3480

Answer 2

阅读tesseract documentation可以省去很多头痛。

Tesseract OCR Problem with Digits on lang='deu'