Python 从 PDF 文档中提取文本的代码

Python code to extract txt from PDF document

我一直在尝试将一些 PDF 转换为 .txt,但我在网上找到的大多数示例代码都有相同的问题:它们一次只能转换一页。我是 python 的新手,我没有找到如何编写 .GetPage() 方法的替代方法来一次转换整个文档。欢迎所有帮助。

import PyPDF2
 
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
 
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
 
print(" No. Of Pages :", pdfReader.numPages)
 
pageObject = pdfReader.getPage(0)
 
print(pageObject.extractText())
 
pdfFileObject.close()

您可以使用 for 循环来完成此操作。从循环中的页面中提取文本并将它们附加到列表中。

import PyPDF2

pages_text=[]
with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
    pdfReader = PyPDF2.PdfFileReader(pdfFileObject)

    print(" No. Of Pages :", pdfReader.numPages)
    for page in range(pdfReader.numPages):
        pageObject = pdfReader.getPage(page)
        pages_text.append(pageObject.extractText())

print(pages_text)