如何解析结构化PDF以收集所有文本和框的元数据作为数据字典

How to parse structured PDF in order to collect the metadata of all the texts and boxes as data dictionary

我需要了解有助于解析结构化 pdf 的库，以便将包含的文本和框收集为数据字典。使用收集到的数据字典，我想操纵它们并重写 pdf。我被建议使用 Ghostscript，但我不确定这对我有何帮助，因为这是后记的解释器。有人可以帮助我朝着正确的方向前进吗？

Ghostscript 解析 PDF 文件以及解释 PostScript。事实上，PDF 解释器是用 PostScript 编写的。

因为 PDF 解释器是一个 PostScript 程序，理论上您可以使用它来实现您想要的，但坦率地说，这不是一个好主意。 PDF 解释器程序非常复杂，您需要成为熟练的 PostScript 程序员才能对其进行有用的更改。

请注意，要求软件推荐的问题与 Stack Overflow 无关。