从 python 中具有特定标题的 PDF 中提取数据

Extracting Data from PDF with particular heading in python

我想解析 python 中的 PDF 文件。我看过 PDFMiner 的示例，但无法解释我的要求。

例如，如果我想解析一份简历，它包含各种字段，如摘要、经验和爱好。

我有兴趣只提取经验，这个经验字段将位于第一位或第二位或任何位置，我需要确定经验字段所在的位置并需要提取数据。

我该怎么做？

有 2 种可行的方法来提取该字段数据：

搜索一些预定义关键字，例如 Experience 以获取其位置。然后搜索下一节的关键字 (Hobbies)，然后确定这两个节之间的文本分区的坐标，并从该位置提取该文本。
如果使用相同的生成器生成 PDF，那么您可能只找到 Experience 部分的坐标，并且每次都从相同的位置提取文本。
（最简单）只需将整个页面转换为文本，然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单的方法，因为所有关于 PDF 格式的工作都依赖于专门的工具