如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?

how to convert pdf scanned image to high resolution tiff with best for ocr?

我用图像魔术将 pdf 转换为 tiff 图像, 从 500kb 到 4.6mb 文件大小。

问题是 tiff 图像中的转换结果不好。有些文字难以阅读。

这是我在 cli 中的简单命令

convert \
pph.pdf \
pph-psd.tiff

PDF 扫描图像:

TIFF 图片:

为什么会发生这种情况以及如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?

发生这种情况是因为 ImageMagick 是一个光栅图像处理器,它使用默认的 72dpi 网格对您的 PDF 进行了光栅化处理——这对于您的需求来说太粗糙了。栅格化之前需要设置更高的密度:

convert -density 288 input.pdf -compress lzw result.tiff

您最好安装 Poppler 工具并使用它的 pdfimages 工具来提取图像。

如果您愿意,可以尝试对我有用的 Coolutils TotalPDFConverter。