Tesseract OCR 无法识别数字 7

Tesseract OCR fails to recognize number 7

我正在尝试分析包含两位数字的 png 图像。 Tesseract 似乎无法检测此图像中的数字 7(七)。它将它识别为 1(一)。

我的配置是:

config='--oem 1 --psm 7 tessedit_char_whitelist=0123456789'

tesseract --version returns以下

tesseract 4.0.0
leptonica-1.76.0
libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0

我试过 oem 和 psm 值,结果没有变化。任何帮助将不胜感激。

图像中的字符太大,我猜 tesseract 没有为此训练过。

调整图像大小效果很好

tesseract cnLRQ.png stdout --oem 1 --psm 7 --dpi 70 digits
18
convert -resize 10% cnLRQ.png cnLRQ-small.png
tesseract cnLRQ-small.png stdout --oem 1 --psm 7 --dpi 70 digits
78