使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像

Cleaning up an image for OCR with ImageMagick and 'textcleaner'

我有以下图像,我想用 tesseract 为 OCR 做准备:

objective是清理图像,去掉所有的噪点。 我正在使用 textcleaner 脚本,该脚本使用具有以下参数的 ImageMagick:

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg

输出仍然不是那么干净:

我尝试了各种参数变体,但没有成功。 有人有想法吗?

如果您转换为 JPEG,您将总是拥有您想要的工件类型正在看。

这是典型的 "feature" JPEG 压缩。 JPEG 永远不适合显示清晰线条的图像,图像不同区域之间的颜色对比均匀,只使用很少的颜色。这适用于黑色 + 白色文本。 JPEG 仅 "good" 用于典型照片,具有许多不同的颜色和阴影...

如果您使用 PNG 作为输出格式,您的问题很可能会得到彻底解决。下图演示了这一点。我使用与您上一个示例命令使用的参数相同的参数生成它,但使用 PNG 作为输出格式:

textcleaner -g -e normalize -f 30 -o 12 -s 2 \
    http://i.stack.imgur.com/ficx7.jpg       \
    out.png

这是对输出的类似放大:

如果您使用 textcleaner 脚本的参数,您很可能会进一步改进输出。但那是你的工作...:-)