从 pdftk 中排除不可见字段

excluding invisible fields from pdftk

我正在使用 /usr/bin/pdftk filename.pdf dump_data_fields output - flatten 获取 PDF 中的 FDF 字段,但它似乎也包括不可见的 FDF 字段。

https://docdro.id/nriB59b is a one-page PDF without any txt but with a number of these invisible FDF fields. pdftk's output can be seen at https://pastebin.com/ag6vweNP.

如何排除不可见的 FDF 字段?

我目前正在使用 pdftk,但我也愿意使用其他工具。

谢谢!

我的猜测是您必须自己检查 PDF 来检测字段是否不可见。另一方面,如果一个字段 不可见或不可见 可能会变得 非常棘手 ,除非标志设置了它。

例如,虽然我不知道这是否可能,但假设一个字段在页面之外或覆盖另一个内容... 是否可见?

顺便说一下,您可以使用 qpdf 检查 PDF 文件的内容。以下命令将解压缩您的 pdf 以使其易于阅读。

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

如果您更喜欢JSON表示:

qpdf --json your_pdf.pdf > your_pdf.json

如果你选择后者,你可以用 jq 解析 json 输出。

然后,使用您要申请的PDF speficication。我还建议这些步骤:

  • 您生成了一个给定字段可见的 pdf
  • 此 pdf 的另一个副本,但隐藏了字段
  • 将两者解压缩然后与diff进行比较。