使用 camelot 的 PDF table 到 pandas 数据框
PDF table to pandas data frame using camelot
我正在尝试创建一种将数据从 pdf 获取到 pandas 数据框中的简单方法。类似的东西:
import camelot
import pandas as pd
pdf = camelot.read_pdf("file1.pdf")
print(pdf[0].df)
关键是我正在尝试使用两个不同的文件:File 1 and File 2 但对于第二个文件,我无法获取信息。它有更多的列,但我相信这应该不是问题。
此外,我从文件 2 中获得 table 的唯一方法是使用 flavor="stream"
File 1
的结果
File 2
的结果
要从第二个文件中正确提取表格,需要处理背景线,using the appropriate parameter (process_background)点阵法,如下代码所示:
import camelot
tables=camelot.read_pdf('file2.pdf', process_background=True)
for table in tables:
print(table.df)
我正在尝试创建一种将数据从 pdf 获取到 pandas 数据框中的简单方法。类似的东西:
import camelot
import pandas as pd
pdf = camelot.read_pdf("file1.pdf")
print(pdf[0].df)
关键是我正在尝试使用两个不同的文件:File 1 and File 2 但对于第二个文件,我无法获取信息。它有更多的列,但我相信这应该不是问题。
此外,我从文件 2 中获得 table 的唯一方法是使用 flavor="stream"
File 1
的结果File 2
的结果要从第二个文件中正确提取表格,需要处理背景线,using the appropriate parameter (process_background)点阵法,如下代码所示:
import camelot
tables=camelot.read_pdf('file2.pdf', process_background=True)
for table in tables:
print(table.df)