从 PDF 中提取/识别表格 python

Extract / Identify Tables from PDF python

有没有支持table识别提取的开源库?

我的意思是:

  1. 识别一个table结构存在
  2. 根据内容对 table 进行分类
  3. 以有用的输出格式从 table 中提取数据,例如JSON / CSV 等

我浏览了有关此主题的类似问题,发现以下内容:

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别 PDF 中的 table 结构。因此,我们非常欢迎任何替代方法!

你一定要看看我的这个回答:

  • Extracting table contents from a collection of PDF files

并查看其中包含的所有链接。

Tabula/TabulaPDF 是目前最好的 table PDF 抓取提取工具。

我只想补充 Kurt Pfeifle 的非常有用的答案 - 现在有一个 Python Tabula 包装器,到目前为止它似乎工作得很好:https://github.com/chezou/tabula-py

这会将您的 PDF table 转换为 Pandas 数据框。还可以在x,y坐标中设置面积,这对于不规则数据显然非常方便。

经过数小时探索 OCR 库、边界框和聚类算法并取得丰硕成果后 - 我找到了一个简单到让你想哭的解决方案!

我希望你正在使用 Linux;

pdftotext -layout NAME_OF_PDF.pdf

太棒了!!

现在您有一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在很容易将其格式化为 csv 等。

我喜欢这样的时代 Linux,这些人对所有事情都提出了惊人的解决方案,并免费提供!