从 PDF 中提取/识别表格 python
Extract / Identify Tables from PDF python
有没有支持table识别提取的开源库?
我的意思是:
- 识别一个table结构存在
- 根据内容对 table 进行分类
- 以有用的输出格式从 table 中提取数据,例如JSON / CSV 等
我浏览了有关此主题的类似问题,发现以下内容:
- PDFMiner 解决了问题 3,但似乎用户需要向 PDFMiner 指定每个 table 存在一个 table 结构(如果我错了请纠正我)
- pdf-table-extract which attempts to address problem 1 but according to the To-Do 列表,目前无法识别由空格分隔的 table。这是一个问题,因为我的 PDF 中的所有 table 都由空格分隔!
目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别 PDF 中的 table 结构。因此,我们非常欢迎任何替代方法!
你一定要看看我的这个回答:
- Extracting table contents from a collection of PDF files
并查看其中包含的所有链接。
Tabula/TabulaPDF 是目前最好的 table PDF 抓取提取工具。
我只想补充 Kurt Pfeifle 的非常有用的答案 - 现在有一个 Python Tabula 包装器,到目前为止它似乎工作得很好:https://github.com/chezou/tabula-py
这会将您的 PDF table 转换为 Pandas 数据框。还可以在x,y坐标中设置面积,这对于不规则数据显然非常方便。
经过数小时探索 OCR 库、边界框和聚类算法并取得丰硕成果后 - 我找到了一个简单到让你想哭的解决方案!
我希望你正在使用 Linux;
pdftotext -layout NAME_OF_PDF.pdf
太棒了!!
现在您有一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在很容易将其格式化为 csv 等。
我喜欢这样的时代 Linux,这些人对所有事情都提出了惊人的解决方案,并免费提供!
有没有支持table识别提取的开源库?
我的意思是:
- 识别一个table结构存在
- 根据内容对 table 进行分类
- 以有用的输出格式从 table 中提取数据,例如JSON / CSV 等
我浏览了有关此主题的类似问题,发现以下内容:
- PDFMiner 解决了问题 3,但似乎用户需要向 PDFMiner 指定每个 table 存在一个 table 结构(如果我错了请纠正我)
- pdf-table-extract which attempts to address problem 1 but according to the To-Do 列表,目前无法识别由空格分隔的 table。这是一个问题,因为我的 PDF 中的所有 table 都由空格分隔!
目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别 PDF 中的 table 结构。因此,我们非常欢迎任何替代方法!
你一定要看看我的这个回答:
- Extracting table contents from a collection of PDF files
并查看其中包含的所有链接。
Tabula/TabulaPDF 是目前最好的 table PDF 抓取提取工具。
我只想补充 Kurt Pfeifle 的非常有用的答案 - 现在有一个 Python Tabula 包装器,到目前为止它似乎工作得很好:https://github.com/chezou/tabula-py
这会将您的 PDF table 转换为 Pandas 数据框。还可以在x,y坐标中设置面积,这对于不规则数据显然非常方便。
经过数小时探索 OCR 库、边界框和聚类算法并取得丰硕成果后 - 我找到了一个简单到让你想哭的解决方案!
我希望你正在使用 Linux;
pdftotext -layout NAME_OF_PDF.pdf
太棒了!!
现在您有一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在很容易将其格式化为 csv 等。
我喜欢这样的时代 Linux,这些人对所有事情都提出了惊人的解决方案,并免费提供!