在 Python 中将 PDF 文件转换为文本文件

Question

我已经用了好几天了 + 在互联网上研究如何从 pdf 文件中获取特定信息。

最终我能够使用 Python 从文本文件（我通过转到 PDF 文件 -----> 文件 ----- -> 另存为文本).

问题是如何让 Python 完成这些任务（转到 PDF 文件（打开它 - 很容易打开（"file path"），单击菜单中的文件，然后将文件另存为同一目录中的文本文件）。

明确一点，我不需要 pdfminer 或 pypdf 库，因为我已经使用相同的文件提取了信息（在手动将其转换为 txt 后）

Answer 1

您可以使用 pdftotext.exe，您可以从 http://www.foolabs.com/xpdf/download.html 下载，然后通过 Python:

在您的 pdf 文件上执行它

import os
import glob
import subprocess

#remember to put your pdftotxt.exe to the folder with your pdf files 
for filename in glob.glob(os.getcwd() + '\*.pdf'):
    subprocess.call([os.getcwd() + '\pdftotext', filename, filename[0:-4]+".txt"])

至少它对我的一个项目有效。

Answer 2

您可以使用“tabula”python 库。它基本上使用 Java，所以你必须安装 Java SDK 和 JDK。 “pip 安装表格” 并将其导入 python 脚本，然后您可以将 pdf 转换为 txt 文件，如下所示： tabula.convert_into("path_or_name_of_pdf.pdf", "output.txt", output_format="csv", pages='all') 您可以在 google 上查看其他功能。它对我有用。干杯！！！

在 Python 中将 PDF 文件转换为文本文件

Converting a PDF file to a Text file in Python

python

pdf

text

converter

python-2.7