tiff 输出质量 Imagemagick 与 Ghostscript

Quality of tiff output Imagemagick vs. Ghostscript

我目前正在研究 Google tesseract ocr 工作流程。从 PDF 生成 tif 有两个选项:

  1. Ghostscript:

    gswin64c.exe -r300x300 -dBATCH -dNOPAUSE -sDEVICE=tiff24nc -sOutputFile=thetif.tif -sCompression=lzw thepdf.pdf -c quit -q

  2. Imagemagick - 转换:

    convert -background white -alpha off -density 300 thepdf.pdf -depth 8 -compress zip thetif.tif

对于(任意)示例文件,提取的 tif 对于 gswin64c 大约是转换结果的五倍。此外,与 gswin64c 相比,convert (!) 的文本更流畅、质量更高。所以我更愿意使用转换,但不幸的是,它需要 gswin64c 的大约 4 倍的时间来提取例如多页 pdf 中的 30 页(170 秒对 40 秒)。

是否有机会提高 gswin64c 的质量(无需极大地扩大输出文件)或加快转换速度?

我不使用 google tesseract ocr 工作流程,但您的命令看起来很奇怪。为什么有两个皈依者?

输入图像通常在转换之后出现,但在您的情况下,-density 将首先出现。

我会尝试这样的事情,看看会发生什么:

imagemagick - convert -density 300 thepdf.pdf -background white -alpha off -depth 8 -compress zip thetif.tif

对我来说,这似乎是速度与质量之间通常的权衡。你喜欢转换质量,但它太慢了,你喜欢 Ghostscript 的速度,但你觉得质量较低。

这肯定意味着你不能同时拥有两者?

你知道 ImageMagick convert 调用 Ghostscript 来呈现 PDF 文件吗?因此,无论您使用哪条路线,您都在使用 Ghostscript。

转换(当然)完全有可能是 post=-处理图像,但我怀疑它不是。如果您研究 convert 的工作原理,您可能会发现它向 Ghostscript 提供的命令行并使用它。

似乎转换正在使用不同的压缩过滤器(Flate 而不是 LZW),并且可能正在指定抗锯齿。您可以使用 TextAlphaBits 和 GraphcisAlphaBits 或 tiffscaled 设备来消除锯齿。

当然,使用抗锯齿会使文本更平滑(如果您喜欢模糊的文本),但需要更长的时间。