使用 camelot 的 PDF table 到 pandas 数据框

PDF table to pandas data frame using camelot

我正在尝试创建一种将数据从 pdf 获取到 pandas 数据框中的简单方法。类似的东西:

import camelot
import pandas as pd

pdf = camelot.read_pdf("file1.pdf")

print(pdf[0].df)

关键是我正在尝试使用两个不同的文件:File 1 and File 2 但对于第二个文件,我无法获取信息。它有更多的列,但我相信这应该不是问题。

此外,我从文件 2 中获得 table 的唯一方法是使用 flavor="stream"

File 1

的结果

File 2

的结果

要从第二个文件中正确提取表格,需要处理背景线,using the appropriate parameter (process_background)点阵法,如下代码所示:

import camelot

tables=camelot.read_pdf('file2.pdf', process_background=True)

for table in tables:
    print(table.df)