改进 OCR 预处理的步骤

Steps to improve pre-processing for OCR

花了半天时间试图找到为Tesseract OCR预处理图像的最佳方法,除了阈值化之外没有找到任何好的结果。谁能建议我应该尝试什么样的步骤? OpenCV、ImageMagick、Gimp 作为工具对我来说很好,图像可以有不同的背景,但字体的字体和颜色将始终相同。以下是图像示例:

我目前使用阈值过滤器时有类似的东西:

以及来自 OCR 的文本:"ELIMINATED LIFELINES220_{¢-\"| “, Vv a . —“

我找到了一篇描述很多预处理步骤的好文章https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

但最好的方法是使用 "Top-hat morphological operation" - 使用邻域像素进行操作。这可以使用 OpenCV
来完成 tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)

或者可以使用 ImageMagick http://www.imagemagick.org/Usage/morphology/#top-hat