从 pdftk 中排除不可见字段
excluding invisible fields from pdftk
我正在使用 /usr/bin/pdftk filename.pdf dump_data_fields output - flatten
获取 PDF 中的 FDF 字段,但它似乎也包括不可见的 FDF 字段。
https://docdro.id/nriB59b is a one-page PDF without any txt but with a number of these invisible FDF fields. pdftk's output can be seen at https://pastebin.com/ag6vweNP.
如何排除不可见的 FDF 字段?
我目前正在使用 pdftk,但我也愿意使用其他工具。
谢谢!
我的猜测是您必须自己检查 PDF 来检测字段是否不可见。另一方面,如果一个字段 不可见或不可见 可能会变得 非常棘手 ,除非标志设置了它。
例如,虽然我不知道这是否可能,但假设一个字段在页面之外或被覆盖另一个内容... 是否可见?
顺便说一下,您可以使用 qpdf
检查 PDF 文件的内容。以下命令将解压缩您的 pdf 以使其易于阅读。
qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf
如果您更喜欢JSON表示:
qpdf --json your_pdf.pdf > your_pdf.json
如果你选择后者,你可以用 jq
解析 json 输出。
然后,使用您要申请的PDF speficication。我还建议这些步骤:
- 您生成了一个给定字段可见的 pdf
- 此 pdf 的另一个副本,但隐藏了字段
- 将两者解压缩然后与
diff
进行比较。
我正在使用 /usr/bin/pdftk filename.pdf dump_data_fields output - flatten
获取 PDF 中的 FDF 字段,但它似乎也包括不可见的 FDF 字段。
https://docdro.id/nriB59b is a one-page PDF without any txt but with a number of these invisible FDF fields. pdftk's output can be seen at https://pastebin.com/ag6vweNP.
如何排除不可见的 FDF 字段?
我目前正在使用 pdftk,但我也愿意使用其他工具。
谢谢!
我的猜测是您必须自己检查 PDF 来检测字段是否不可见。另一方面,如果一个字段 不可见或不可见 可能会变得 非常棘手 ,除非标志设置了它。
例如,虽然我不知道这是否可能,但假设一个字段在页面之外或被覆盖另一个内容... 是否可见?
顺便说一下,您可以使用 qpdf
检查 PDF 文件的内容。以下命令将解压缩您的 pdf 以使其易于阅读。
qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf
如果您更喜欢JSON表示:
qpdf --json your_pdf.pdf > your_pdf.json
如果你选择后者,你可以用 jq
解析 json 输出。
然后,使用您要申请的PDF speficication。我还建议这些步骤:
- 您生成了一个给定字段可见的 pdf
- 此 pdf 的另一个副本,但隐藏了字段
- 将两者解压缩然后与
diff
进行比较。