如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?
how to convert pdf scanned image to high resolution tiff with best for ocr?
我用图像魔术将 pdf 转换为 tiff 图像,
从 500kb 到 4.6mb 文件大小。
问题是 tiff 图像中的转换结果不好。有些文字难以阅读。
这是我在 cli 中的简单命令
convert \
pph.pdf \
pph-psd.tiff
PDF 扫描图像:
TIFF 图片:
为什么会发生这种情况以及如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?
发生这种情况是因为 ImageMagick 是一个光栅图像处理器,它使用默认的 72dpi 网格对您的 PDF 进行了光栅化处理——这对于您的需求来说太粗糙了。栅格化之前需要设置更高的密度:
convert -density 288 input.pdf -compress lzw result.tiff
您最好安装 Poppler 工具并使用它的 pdfimages
工具来提取图像。
如果您愿意,可以尝试对我有用的 Coolutils TotalPDFConverter。
我用图像魔术将 pdf 转换为 tiff 图像, 从 500kb 到 4.6mb 文件大小。
问题是 tiff 图像中的转换结果不好。有些文字难以阅读。
这是我在 cli 中的简单命令
convert \
pph.pdf \
pph-psd.tiff
PDF 扫描图像:
TIFF 图片:
为什么会发生这种情况以及如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?
发生这种情况是因为 ImageMagick 是一个光栅图像处理器,它使用默认的 72dpi 网格对您的 PDF 进行了光栅化处理——这对于您的需求来说太粗糙了。栅格化之前需要设置更高的密度:
convert -density 288 input.pdf -compress lzw result.tiff
您最好安装 Poppler 工具并使用它的 pdfimages
工具来提取图像。
如果您愿意,可以尝试对我有用的 Coolutils TotalPDFConverter。