如何使用 python 将 pdf 文件转换为 excel 文件
how to convert pdf file to excel file using python
我想将一个pdf文件转换成excel并通过python保存在本地。
我已将 pdf 转换为 excel 格式,但我应该如何将其保存到本地?
我的代码:
df = ("./Downloads/folder/myfile.pdf")
tabula.convert_into(df, "test.csv", output_format="csv", stream=True)
您可以指定整个输出路径,而不仅仅是 output.csv
df = ("./Downloads/folder/myfile.pdf")
output = "./Downloads/folder/test.csv"
tabula.convert_into(df, output, output_format="csv", stream=True)
希望这能回答您的问题!!!
Documentation 表示:
Output file will be saved into output_path
output_path是你的第二个参数,"test.csv"。我想它工作正常,但你把它放在错误的文件夹中。它将位于 您的脚本 附近(严格来说 - 在 current working directory 中),因为您没有指定完整路径。
就我而言,下面的脚本有效:
import tabula
df = tabula.read_pdf(r'C:\Users\user\Downloads\folder.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
对我有用的代码是下面的代码,但它并没有读取所有的 pdf 页面,只是中间的一些。我做错了什么?
import tabula
df = tabula.read_pdf(r'C:\Users\user\Downloads\folder.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
PDF 到 .xlsx 文件:
for item in df:
list1.append(item)
df = pd.DataFrame(list1)
df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)
我想将一个pdf文件转换成excel并通过python保存在本地。 我已将 pdf 转换为 excel 格式,但我应该如何将其保存到本地?
我的代码:
df = ("./Downloads/folder/myfile.pdf")
tabula.convert_into(df, "test.csv", output_format="csv", stream=True)
您可以指定整个输出路径,而不仅仅是 output.csv
df = ("./Downloads/folder/myfile.pdf")
output = "./Downloads/folder/test.csv"
tabula.convert_into(df, output, output_format="csv", stream=True)
希望这能回答您的问题!!!
Documentation 表示:
Output file will be saved into output_path
output_path是你的第二个参数,"test.csv"。我想它工作正常,但你把它放在错误的文件夹中。它将位于 您的脚本 附近(严格来说 - 在 current working directory 中),因为您没有指定完整路径。
就我而言,下面的脚本有效:
import tabula
df = tabula.read_pdf(r'C:\Users\user\Downloads\folder.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
对我有用的代码是下面的代码,但它并没有读取所有的 pdf 页面,只是中间的一些。我做错了什么?
import tabula
df = tabula.read_pdf(r'C:\Users\user\Downloads\folder.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
PDF 到 .xlsx 文件:
for item in df:
list1.append(item)
df = pd.DataFrame(list1)
df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)