Tesseract 在单行图像中混淆了“-”和“7”

Tesseract confuses "-" and "7" in a single-line image

This image 被识别为
08787365076858,而不是
0878-3650-6858

我有一个包含 50 个相似图像文件的列表,每个文件中的所有“-”字符都匹配为“7”。

使用了默认设置,即使安装了 tesseract 来清除系统。 还尝试使用 -psm=7/8(单个 line/word)并设置白名单字符。

这个问题的原因是什么,我该如何解决? 我知道训练,但有趣的是,为什么准确的(在大多数情况下)tesseract 混淆了如此不同的字符。

重新缩放到 300DPI 将有助于在图像中显示这些破折号。