带有 OCR 的 ps2pdf 松散 OCR
ps2pdf with OCR loose OCR
我花了很多时间用 OCR 转换 ps2pdf。
我在 Windows10 上安装了 GhostScript,并将带有 OCR 的 pdf 转换为 Post 脚本文件。然后我从 Post 脚本转换为 PDF 以获得更好的结果。
OCR 丢失了。
如何将 OCRed pdf 转换为 Post 脚本文件然后返回 Post 使用 OCR 将脚本文件转换为 PDF?
我的命令是
pdf2ps test.pdf test.ps
然后
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps
您无法使用 Ghostscript 或很可能是任何其他 PostScript 解释器实现您尝试的目标。
PostScript 语言不支持 PDF 模型的某些功能,在这种情况下它不支持文本渲染模式。 PDF 文件几乎肯定使用文本呈现模式 3 在页面上放置 'invisible' 文本。 (注意,这有点猜测,因为您没有提供 PDF 文件进行调查)
ps2write 设备发出的 PostScript 通过不绘制文本来模仿这一点。
当您使用该 PostScript 并从中创建 PDF 文件时,不会绘制文本,因此不会将其合并到 PDF 文件中。结果是新 PDF 文件中不存在 Tr 3 和文本。
因为您最初有一个 PDF 文件,所以不要从它创建 PostScript 程序,您将得到您想要的,一个包含不可见文本的 PDF 文件。
我花了很多时间用 OCR 转换 ps2pdf。
我在 Windows10 上安装了 GhostScript,并将带有 OCR 的 pdf 转换为 Post 脚本文件。然后我从 Post 脚本转换为 PDF 以获得更好的结果。
OCR 丢失了。
如何将 OCRed pdf 转换为 Post 脚本文件然后返回 Post 使用 OCR 将脚本文件转换为 PDF?
我的命令是
pdf2ps test.pdf test.ps
然后
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps
您无法使用 Ghostscript 或很可能是任何其他 PostScript 解释器实现您尝试的目标。
PostScript 语言不支持 PDF 模型的某些功能,在这种情况下它不支持文本渲染模式。 PDF 文件几乎肯定使用文本呈现模式 3 在页面上放置 'invisible' 文本。 (注意,这有点猜测,因为您没有提供 PDF 文件进行调查)
ps2write 设备发出的 PostScript 通过不绘制文本来模仿这一点。
当您使用该 PostScript 并从中创建 PDF 文件时,不会绘制文本,因此不会将其合并到 PDF 文件中。结果是新 PDF 文件中不存在 Tr 3 和文本。
因为您最初有一个 PDF 文件,所以不要从它创建 PostScript 程序,您将得到您想要的,一个包含不可见文本的 PDF 文件。