从 PDF 中提取/识别表格 python

Extract / Identify Tables from PDF python

有没有支持table识别提取的开源库？

我的意思是：

我浏览了有关此主题的类似问题，发现以下内容：

PDFMiner 解决了问题 3，但似乎用户需要向 PDFMiner 指定每个 table 存在一个 table 结构（如果我错了请纠正我)
pdf-table-extract which attempts to address problem 1 but according to the To-Do 列表，目前无法识别由空格分隔的 table。这是一个问题，因为我的 PDF 中的所有 table 都由空格分隔！

目前，我认为我将不得不花费大量时间开发机器学习解决方案来识别 PDF 中的 table 结构。因此，我们非常欢迎任何替代方法！

你一定要看看我的这个回答：

并查看其中包含的所有链接。

Tabula/TabulaPDF 是目前最好的 table PDF 抓取提取工具。

我只想补充 Kurt Pfeifle 的非常有用的答案 - 现在有一个 Python Tabula 包装器，到目前为止它似乎工作得很好：https://github.com/chezou/tabula-py

这会将您的 PDF table 转换为 Pandas 数据框。还可以在x,y坐标中设置面积，这对于不规则数据显然非常方便。

经过数小时探索 OCR 库、边界框和聚类算法并取得丰硕成果后 - 我找到了一个简单到让你想哭的解决方案！

我希望你正在使用 Linux;

pdftotext -layout NAME_OF_PDF.pdf

太棒了！！

现在您有一个漂亮的文本文件，所有信息都排列在漂亮的列中，现在很容易将其格式化为 csv 等。

我喜欢这样的时代 Linux，这些人对所有事情都提出了惊人的解决方案，并免费提供！