将 PDF 文档转换为 DataFrame
Converting PDF document to DataFrame
我有一个 PDF 文档,有 388 页,每页 1 table,我试图将它们转换为 excel 或多个数据帧,但遇到一些困难,我尝试了 pypdf2 和tabula 库,但它在仅提取一页后停止。数据如下所示:
所有页面都相同,但行业名称和编号不同
到目前为止我得到的最好结果是
import tabula
import pandas as pd
df= pd.DataFrame()
df = tabula.read_pdf("FSA.pdf",multiple_tables=True)
tabula.convert_into("FSA.pdf", "fsa_report.csv", output_format="csv",multiple_tables=True)
print(df)
但是完成页面后就停止了1.Any求助?
df = tabula.read_pdf(file, lattice=True, pages=2, multiple_tables=True)
tabula.convert_into(file, "fsa_report.csv", output_format="csv", pages=3, multiple_tables=True)
使用这一行,需要注明页数
我有一个 PDF 文档,有 388 页,每页 1 table,我试图将它们转换为 excel 或多个数据帧,但遇到一些困难,我尝试了 pypdf2 和tabula 库,但它在仅提取一页后停止。数据如下所示:
所有页面都相同,但行业名称和编号不同
到目前为止我得到的最好结果是
import tabula
import pandas as pd
df= pd.DataFrame()
df = tabula.read_pdf("FSA.pdf",multiple_tables=True)
tabula.convert_into("FSA.pdf", "fsa_report.csv", output_format="csv",multiple_tables=True)
print(df)
但是完成页面后就停止了1.Any求助?
df = tabula.read_pdf(file, lattice=True, pages=2, multiple_tables=True)
tabula.convert_into(file, "fsa_report.csv", output_format="csv", pages=3, multiple_tables=True)
使用这一行,需要注明页数