Tesseract 在单行图像中混淆了“-”和“7”

Tesseract confuses "-" and "7" in a single-line image

This image 被识别为
08787365076858，而不是
0878-3650-6858

我有一个包含 50 个相似图像文件的列表，每个文件中的所有“-”字符都匹配为“7”。

使用了默认设置，即使安装了 tesseract 来清除系统。还尝试使用 -psm=7/8（单个 line/word）并设置白名单字符。

这个问题的原因是什么，我该如何解决？我知道训练，但有趣的是，为什么准确的（在大多数情况下）tesseract 混淆了如此不同的字符。

重新缩放到 300DPI 将有助于在图像中显示这些破折号。