在 Python 中将 PDF 文件转换为文本文件
Converting a PDF file to a Text file in Python
我已经用了好几天了 + 在互联网上研究如何从 pdf 文件中获取特定信息。
最终我能够使用 Python 从文本文件(我通过转到 PDF 文件 -----> 文件 ----- -> 另存为文本).
问题是如何让 Python 完成这些任务(转到 PDF 文件(打开它 - 很容易打开("file path"),单击菜单中的文件,然后将文件另存为同一目录中的文本文件)。
明确一点,我不需要 pdfminer 或 pypdf 库,因为我已经使用相同的文件提取了信息(在手动将其转换为 txt 后)
您可以使用 pdftotext.exe,您可以从 http://www.foolabs.com/xpdf/download.html 下载,然后通过 Python:
在您的 pdf 文件上执行它
import os
import glob
import subprocess
#remember to put your pdftotxt.exe to the folder with your pdf files
for filename in glob.glob(os.getcwd() + '\*.pdf'):
subprocess.call([os.getcwd() + '\pdftotext', filename, filename[0:-4]+".txt"])
至少它对我的一个项目有效。
您可以使用“tabula”python 库。它基本上使用 Java,所以你必须安装 Java SDK 和 JDK。
“pip 安装表格”
并将其导入 python 脚本,然后您可以将 pdf 转换为 txt 文件,如下所示:
tabula.convert_into("path_or_name_of_pdf.pdf", "output.txt", output_format="csv", pages='all')
您可以在 google 上查看其他功能。它对我有用。
干杯!!!
我已经用了好几天了 + 在互联网上研究如何从 pdf 文件中获取特定信息。
最终我能够使用 Python 从文本文件(我通过转到 PDF 文件 -----> 文件 ----- -> 另存为文本).
问题是如何让 Python 完成这些任务(转到 PDF 文件(打开它 - 很容易打开("file path"),单击菜单中的文件,然后将文件另存为同一目录中的文本文件)。
明确一点,我不需要 pdfminer 或 pypdf 库,因为我已经使用相同的文件提取了信息(在手动将其转换为 txt 后)
您可以使用 pdftotext.exe,您可以从 http://www.foolabs.com/xpdf/download.html 下载,然后通过 Python:
在您的 pdf 文件上执行它import os
import glob
import subprocess
#remember to put your pdftotxt.exe to the folder with your pdf files
for filename in glob.glob(os.getcwd() + '\*.pdf'):
subprocess.call([os.getcwd() + '\pdftotext', filename, filename[0:-4]+".txt"])
至少它对我的一个项目有效。
您可以使用“tabula”python 库。它基本上使用 Java,所以你必须安装 Java SDK 和 JDK。 “pip 安装表格” 并将其导入 python 脚本,然后您可以将 pdf 转换为 txt 文件,如下所示: tabula.convert_into("path_or_name_of_pdf.pdf", "output.txt", output_format="csv", pages='all') 您可以在 google 上查看其他功能。它对我有用。 干杯!!!