在 Python 中将 PDF 文件转换为文本文件

Converting a PDF file to a Text file in Python

我已经用了好几天了 + 在互联网上研究如何从 pdf 文件中获取特定信息。

最终我能够使用 Python 从文本文件(我通过转到 PDF 文件 -----> 文件 ----- -> 另存为文本).

问题是如何让 Python 完成这些任务(转到 PDF 文件(打开它 - 很容易打开("file path"),单击菜单中的文件,然后将文件另存为同一目录中的文本文件)。

明确一点,我不需要 pdfminer 或 pypdf 库,因为我已经使用相同的文件提取了信息(在手动将其转换为 txt 后)

您可以使用 pdftotext.exe,您可以从 http://www.foolabs.com/xpdf/download.html 下载,然后通过 Python:

在您的 pdf 文件上执行它
import os
import glob
import subprocess

#remember to put your pdftotxt.exe to the folder with your pdf files 
for filename in glob.glob(os.getcwd() + '\*.pdf'):
    subprocess.call([os.getcwd() + '\pdftotext', filename, filename[0:-4]+".txt"])

至少它对我的一个项目有效。

您可以使用“tabula”python 库。它基本上使用 Java,所以你必须安装 Java SDK 和 JDK。 “pip 安装表格” 并将其导入 python 脚本,然后您可以将 pdf 转换为 txt 文件,如下所示: tabula.convert_into("path_or_name_of_pdf.pdf", "output.txt", output_format="csv", pages='all') 您可以在 google 上查看其他功能。它对我有用。 干杯!!!