Tesseract OCR 无法识别基本的字母数字代码

Tesseract OCR can't recognize basic alphanumeric codes

Tesseract 似乎无法识别基本的字母数字代码。我已尝试放大图像、更改为等宽字体并关闭字典，但 OCR 质量没有任何改善。

下图被识别为：

i3DOIIH_My 活动J

MmRSes_My 帐户 DBYCAe_My 提交 1

Hrti6_My更新

正如你所看到的，识别的字符完全不存在。

为这些类型的字符训练 tesseract，包括特殊 characters.Refer 这个 Tesseract Training

你的原图大小是1508 x 1092 pixels，4行加竖间距，好像太大了。

将图像缩小到 503 x 364 pixels 后，字符的高度约为 76 pixels。

Tesseract 对文本给出了 100% 的 OCR 结果。

字体大小和背景颜色会影响 OCR 结果。最好的结果将从黑白文本中获得。否则，可能需要对图像进行预处理。

希望对您有所帮助。