当单词有背景图像时如何改善tesseract的结果

how to improve the result of tesseract when the words has background image

我正在尝试从图像中提取数字。我测试了 tesseract-OCR,但结果不够好。例如,

tesseract test.jpg stdout --psm 6

将输出:

4367 42424W0 104

我猜这个问题是因为文字后面有一些背景图片。有什么方法可以改善结果吗?

您可以使用 ImageMagickconvert 命令将图像阈值化为背景白色。可以下载ImageMagickhere,支持多平台

通过输入,

convert image.jpg -threshold 33% thresholded.jpg

输出如下图。阈值是经过几次尝试和调整后获得的。

然后,使用基本的 tesseract 命令,它会给出正确的输出。

如果图片只有0-9,可以开启tesseract选项提高识别准确率- -c tessedit_char_whitelist=01234567890".

希望对您有所帮助。