PDF 优化 - 在嵌入文本之前加载图像 - 请参阅提供的示例

PDF Optimization - Image Load Before Embedded Text - See Examples Provided

我一直在努力寻找一种方法让我们的 OCRed PDF(坏-uc.pdf)表现得与保存的中缀相同(好-uc.pdf)。

如果你在 Acrobat Reader 中打开以下两个文件(任何版本都应该显示相同的问题),你会看到 bad-uc.pdf 在页面图像之前加载文本(非常慢)... good-uc.pdf 将所有内容加载在一起(似乎更快且响应更快)。

好-uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing 坏-uc-pdf:https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

我已经尝试过:pdftk、pdftops、ghostscript、pdf2ps、ps2pdf 和 qpdf,但仍然无法在文本之前加载图像...PDF 专家能否阐明为什么这两个 PDF行为不同...

我的猜测是中缀重构 PDF,以便图像在嵌入文本之前加载,但我找不到可以进行此类 PDF 结构优化的 Linux 命令行工具。

非常感谢!! 杰弗里

shed some lights on why these two PDFs behave differently...

实际上,Adobe Reader 在我的计算机上正确显示您的两个 PDF 所用的时间差不多。但是,当您的坏 uc.pdf 首先显示经过 OCR 处理的文本,然后用扫描覆盖它时,好的 uc.pdf 似乎首先显示一个普通页面,然后用扫描覆盖它。

原因是 good-uc.pdf 在渲染模式 3 ("invisible") 中绘制 OCR 文本,而 bad-uc.pdf 在渲染模式 0 中正常绘制它("fill outline") 填充颜色为黑色。由于隐形绘画可能比实际的黑白绘画需要更少的时间,因此渲染时间之间甚至可能存在 objective 差异,但我认为这主要是主观的。