如何解析结构化PDF以收集所有文本和框的元数据作为数据字典

How to parse structured PDF in order to collect the metadata of all the texts and boxes as data dictionary

我需要了解有助于解析结构化 pdf 的库,以便将包含的文本和框收集为数据字典。使用收集到的数据字典,我想操纵它们并重写 pdf。我被建议使用 Ghostscript,但我不确定这对我有何帮助,因为这是后记的解释器。有人可以帮助我朝着正确的方向前进吗?

Ghostscript 解析 PDF 文件以及解释 PostScript。事实上,PDF 解释器是用 PostScript 编写的。

因为 PDF 解释器是一个 PostScript 程序,理论上您可以使用它来实现您想要的,但坦率地说,这不是一个好主意。 PDF 解释器程序非常复杂,您需要成为熟练的 PostScript 程序员才能对其进行有用的更改。

请注意,要求软件推荐的问题与 Stack Overflow 无关。