如何使用 python 从 PDF 中提取文本?
How can i extract text from a PDF with python?
我想从 PDF 中提取一些文本。我正在使用此代码:
import PyPDF2
Doc = open('document.pdf','rb')
pdfreader = PyPDF2.PdfFileReader(Doc)
pageObj = pdfreader.getPage(0)
pageObj.extractText()
使用此代码,pageObj.extractText()
的结果是 ''
。我不知道为什么会这样,因为打开的 pdf 中有文本。此文档只有 1 页。
有人知道发生了什么事吗?或者是否有其他方法从 PDF 中获取信息?
你可以试试 PDF Plumber。
您可以将其写入文本文件,而不是打印出来。
import pdfplumber
with pdfplumber.open(r'D:\document.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())
我想从 PDF 中提取一些文本。我正在使用此代码:
import PyPDF2
Doc = open('document.pdf','rb')
pdfreader = PyPDF2.PdfFileReader(Doc)
pageObj = pdfreader.getPage(0)
pageObj.extractText()
使用此代码,pageObj.extractText()
的结果是 ''
。我不知道为什么会这样,因为打开的 pdf 中有文本。此文档只有 1 页。
有人知道发生了什么事吗?或者是否有其他方法从 PDF 中获取信息?
你可以试试 PDF Plumber。
您可以将其写入文本文件,而不是打印出来。
import pdfplumber
with pdfplumber.open(r'D:\document.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())