使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像

Question

我有以下图像，我想用 tesseract 为 OCR 做准备：

objective是清理图像，去掉所有的噪点。我正在使用 textcleaner 脚本，该脚本使用具有以下参数的 ImageMagick：

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg

输出仍然不是那么干净：

我尝试了各种参数变体，但没有成功。有人有想法吗？

Answer 1

如果您转换为 JPEG，您将总是拥有您想要的工件类型正在看。

这是典型的 "feature" JPEG 压缩。 JPEG 永远不适合显示清晰线条的图像，图像不同区域之间的颜色对比均匀，只使用很少的颜色。这适用于黑色 + 白色文本。 JPEG 仅 "good" 用于典型照片，具有许多不同的颜色和阴影...

如果您使用 PNG 作为输出格式，您的问题很可能会得到彻底解决。下图演示了这一点。我使用与您上一个示例命令使用的参数相同的参数生成它，但使用 PNG 作为输出格式：

textcleaner -g -e normalize -f 30 -o 12 -s 2 \
    http://i.stack.imgur.com/ficx7.jpg       \
    out.png

这是对输出的类似放大：

如果您使用 textcleaner 脚本的参数，您很可能会进一步改进输出。但那是你的工作...:-)

Cleaning up an image for OCR with ImageMagick and 'textcleaner'