Tesseract 不识别德语 "für"

Tesseract does not recognize german "für"

我通过 docker 图片 tesseractshadow/tesseract4re

使用 tesseract 4.0

我使用选项 -l=deu 给 tesseract 提示,文本是 "deutsch"(德语)。

德语单词 "für" 的结果仍然不好。德语单词很常见(英语中的意思是"for")。

Tesseract 经常检测到 "fiir" 或 "fur"。

我可以做些什么来改善这个?

可重现的例子

docker run --name self.container_name --rm \
    --volume  $PWD:/pwd \
    tesseractshadow/tesseract4re \
    tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu

结果:

cat die-fuer-das.png.ocr-result.txt 
die fur das

图片die_fuer_das.png:

我找到了解决方案。它必须是 -l deu 否则不会使用德语。我不小心用了 -l=deu.

作品:

===> tesseract  die-fuer-das.png out  -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das

错误的语言:

===> tesseract  die-fuer-das.png out  -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das