Tesseract 不识别德语 "für"
Tesseract does not recognize german "für"
我通过 docker 图片 tesseractshadow/tesseract4re
使用 tesseract 4.0
我使用选项 -l=deu
给 tesseract 提示,文本是 "deutsch"(德语)。
德语单词 "für" 的结果仍然不好。德语单词很常见(英语中的意思是"for")。
Tesseract 经常检测到 "fiir" 或 "fur"。
我可以做些什么来改善这个?
可重现的例子
docker run --name self.container_name --rm \
--volume $PWD:/pwd \
tesseractshadow/tesseract4re \
tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
结果:
cat die-fuer-das.png.ocr-result.txt
die fur das
图片die_fuer_das.png:
我找到了解决方案。它必须是 -l deu
否则不会使用德语。我不小心用了 -l=deu
.
作品:
===> tesseract die-fuer-das.png out -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das
错误的语言:
===> tesseract die-fuer-das.png out -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das
我通过 docker 图片 tesseractshadow/tesseract4re
使用 tesseract 4.0我使用选项 -l=deu
给 tesseract 提示,文本是 "deutsch"(德语)。
德语单词 "für" 的结果仍然不好。德语单词很常见(英语中的意思是"for")。
Tesseract 经常检测到 "fiir" 或 "fur"。
我可以做些什么来改善这个?
可重现的例子
docker run --name self.container_name --rm \
--volume $PWD:/pwd \
tesseractshadow/tesseract4re \
tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
结果:
cat die-fuer-das.png.ocr-result.txt
die fur das
图片die_fuer_das.png:
我找到了解决方案。它必须是 -l deu
否则不会使用德语。我不小心用了 -l=deu
.
作品:
===> tesseract die-fuer-das.png out -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das
错误的语言:
===> tesseract die-fuer-das.png out -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das