使用 Poppler 拆分和重新合并 PDF 会导致文件变大? (尽管剥离元数据)

splitting and rejoining PDFs with Poppler results in larger file? (despite stripping metadata)

如果我有一个多页 PDF,并使用出色的 poppler package(使用 brew install poppler 安装在 macOS 上)将其分成单独的页面,如下所示:

pdfseparate foo.pdf bar-%04d.pdf

然后重新加入生成的 bar-####.pdf 文件,如下所示:

pdfunite bar-*.pdf baz.pdf

生成的 baz.pdf 似乎具有相同的内容,但是 文件要大得多

一开始我以为是因为结果中会有重复的元数据之类的。但即使我从所有文件中删除所有元数据,即从输入中删除所有元数据,以及中间 bar-####.pdf 文件,以及生成的输出文件,使用 exiftool and qpdf 像这样:

# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf

然后仍然生成的baz.pdf文件比原始输入大得多。

这可能是什么原因造成的?一个多页的 PDF 文件除了内容外还能有什么?假设 poppler 的 pdfseparatepdfunite 保留实际内容本身不变,并且我对元数据的剥离是正确的。

或者 pdfseparatepdfunite 是否有可能以某种方式以无损但次优的方式分解和重建 PDF 内容? (我不太了解PDF文件的内部结构,但我可以想象有很多不同的方式来编码相同的内容)

顺便说一下,如果我使用 exiftool somefile.pdf 检查任何涉及的 PDF 文件,它确实根本没有显示任何元数据(并且线性化:是)。

PDF 页面使用字体、图像等共享资源。拆分文档时,共享资源会进入每个结果文件。当您合并这些文件时,资源可能不会合并回来(这取决于合并工具的实现方式),从而导致文件更大。