如何使用 python 从 PDF 中提取文本？

Question

我想从 PDF 中提取一些文本。我正在使用此代码：

import PyPDF2
Doc = open('document.pdf','rb') 
pdfreader = PyPDF2.PdfFileReader(Doc)
pageObj = pdfreader.getPage(0)
pageObj.extractText()

使用此代码，pageObj.extractText() 的结果是 ''。我不知道为什么会这样，因为打开的 pdf 中有文本。此文档只有 1 页。

有人知道发生了什么事吗？或者是否有其他方法从 PDF 中获取信息？

Answer 1

你可以试试 PDF Plumber。

您可以将其写入文本文件，而不是打印出来。

import pdfplumber
with pdfplumber.open(r'D:\document.pdf') as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())