Tesseract - 不影响最终图像的预处理

Tesseract - Preprocessing that Doesn't Affect Final Image

我正在使用最新版本的 Tesseract (5.0),我正在尝试确定是否可以插入一些不会影响最终图像形式的预处理步骤。

例如,我可能会从这样的图像开始 as this.

有不同级别的shadow/brightness,所以我可能会用adaptive Gaussian thresholding to avoid shadows during binarization。

我现在将 运行 通过 tesseract,希望最终创建一个 OCR'd PDF。但是,我希望最终用户(和我)看到的图像是全彩色的原始图像,并在下面放置转换图像中的文本

有办法解决这个问题吗?还是我完全忽略了这里的要点。

我在另一个论坛上得到了答案,想在这里分享。

我没有使用 Tesseract 中的内置 PDF 选项,而是使用了 hOCR 设置。我的管道去了:

  1. 预处理图像(阈值等)
  2. 运行 tesseract 使用以下命令:tesseract example1.jpg example1 -l eng hocr
  3. 使用 Ocropus 的 hocr-pdf 模块将 hocr'd material 与原始图像合并,无需预处理。