带有 OCR 的 ps2pdf 松散 OCR

ps2pdf with OCR loose OCR

我花了很多时间用 OCR 转换 ps2pdf。

我在 Windows10 上安装了 GhostScript,并将带有 OCR 的 pdf 转换为 Post 脚本文件。然后我从 Post 脚本转换为 PDF 以获得更好的结果。

OCR 丢失了。

如何将 OCRed pdf 转换为 Post 脚本文件然后返回 Post 使用 OCR 将脚本文件转换为 PDF?

我的命令是

pdf2ps test.pdf test.ps

然后

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps

您无法使用 Ghostscript 或很可能是任何其他 PostScript 解释器实现您尝试的目标。

PostScript 语言不支持 PDF 模型的某些功能,在这种情况下它不支持文本渲染模式。 PDF 文件几乎肯定使用文本呈现模式 3 在页面上放置 'invisible' 文本。 (注意,这有点猜测,因为您没有提供 PDF 文件进行调查)

ps2write 设备发出的 PostScript 通过不绘制文本来模仿这一点。

当您使用该 PostScript 并从中创建 PDF 文件时,不会绘制文本,因此不会将其合并到 PDF 文件中。结果是新 PDF 文件中不存在 Tr 3 和文本。

因为您最初有一个 PDF 文件,所以不要从它创建 PostScript 程序,您将得到您想要的,一个包含不可见文本的 PDF 文件。