Python 从 PDF 文档中提取文本的代码
Python code to extract txt from PDF document
我一直在尝试将一些 PDF 转换为 .txt,但我在网上找到的大多数示例代码都有相同的问题:它们一次只能转换一页。我是 python 的新手,我没有找到如何编写 .GetPage() 方法的替代方法来一次转换整个文档。欢迎所有帮助。
import PyPDF2
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
pageObject = pdfReader.getPage(0)
print(pageObject.extractText())
pdfFileObject.close()
您可以使用 for
循环来完成此操作。从循环中的页面中提取文本并将它们附加到列表中。
import PyPDF2
pages_text=[]
with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
for page in range(pdfReader.numPages):
pageObject = pdfReader.getPage(page)
pages_text.append(pageObject.extractText())
print(pages_text)
我一直在尝试将一些 PDF 转换为 .txt,但我在网上找到的大多数示例代码都有相同的问题:它们一次只能转换一页。我是 python 的新手,我没有找到如何编写 .GetPage() 方法的替代方法来一次转换整个文档。欢迎所有帮助。
import PyPDF2
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
pageObject = pdfReader.getPage(0)
print(pageObject.extractText())
pdfFileObject.close()
您可以使用 for
循环来完成此操作。从循环中的页面中提取文本并将它们附加到列表中。
import PyPDF2
pages_text=[]
with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(" No. Of Pages :", pdfReader.numPages)
for page in range(pdfReader.numPages):
pageObject = pdfReader.getPage(page)
pages_text.append(pageObject.extractText())
print(pages_text)