当单词有背景图像时如何改善tesseract的结果
how to improve the result of tesseract when the words has background image
我正在尝试从图像中提取数字。我测试了 tesseract-OCR,但结果不够好。例如,
tesseract test.jpg stdout --psm 6
将输出:
4367 42424W0 104
我猜这个问题是因为文字后面有一些背景图片。有什么方法可以改善结果吗?
您可以使用 ImageMagick
的 convert
命令将图像阈值化为背景白色。可以下载ImageMagick
here,支持多平台
通过输入,
convert image.jpg -threshold 33% thresholded.jpg
输出如下图。阈值是经过几次尝试和调整后获得的。
然后,使用基本的 tesseract
命令,它会给出正确的输出。
如果图片只有0-9,可以开启tesseract选项提高识别准确率- -c tessedit_char_whitelist=01234567890"
.
希望对您有所帮助。
我正在尝试从图像中提取数字。我测试了 tesseract-OCR,但结果不够好。例如,
tesseract test.jpg stdout --psm 6
将输出:
4367 42424W0 104
我猜这个问题是因为文字后面有一些背景图片。有什么方法可以改善结果吗?
您可以使用 ImageMagick
的 convert
命令将图像阈值化为背景白色。可以下载ImageMagick
here,支持多平台
通过输入,
convert image.jpg -threshold 33% thresholded.jpg
输出如下图。阈值是经过几次尝试和调整后获得的。
然后,使用基本的 tesseract
命令,它会给出正确的输出。
如果图片只有0-9,可以开启tesseract选项提高识别准确率- -c tessedit_char_whitelist=01234567890"
.
希望对您有所帮助。