如何使用 python 从 PDF 中提取文本?

How can i extract text from a PDF with python?

我想从 PDF 中提取一些文本。我正在使用此代码:

import PyPDF2
Doc = open('document.pdf','rb') 
pdfreader = PyPDF2.PdfFileReader(Doc)
pageObj = pdfreader.getPage(0)
pageObj.extractText()

使用此代码,pageObj.extractText() 的结果是 ''。我不知道为什么会这样,因为打开的 pdf 中有文本。此文档只有 1 页。

有人知道发生了什么事吗?或者是否有其他方法从 PDF 中获取信息?

你可以试试 PDF Plumber。

您可以将其写入文本文件,而不是打印出来。

import pdfplumber
with pdfplumber.open(r'D:\document.pdf') as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())