从 python 中具有特定标题的 PDF 中提取数据

Extracting Data from PDF with particular heading in python

我想解析 python 中的 PDF 文件。我看过 PDFMiner 的示例,但无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。

我有兴趣只提取经验,这个经验字段将位于第一位或第二位或任何位置,我需要确定经验字段所在的位置并需要提取数据。

我该怎么做?

有 2 种可行的方法来提取该字段数据:

  1. 搜索一些预定义关键字,例如 Experience 以获取其位置。然后搜索下一节的关键字 (Hobbies),然后确定这两个节之间的文本分区的坐标,并从该位置提取该文本。

  2. 如果使用相同的生成器生成 PDF,那么您可能只找到 Experience 部分的坐标,并且每次都从相同的位置提取文本。

  3. (最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单的方法,因为所有关于 PDF 格式的工作都依赖于专门的工具