如何使用pypdf2打开pdf文件

how to open pdf file using pypdf2

我尝试使用 pypdf 在 Google Colab 中使用

打开 pdf 文件
import PyPDF2 as pdf2
with open("sample.pdf", "r+") as f:
   pdf = pdf2.PdfFileReader(f)

但我收到以下错误:

UnsupportedOperation: can't do nonzero end-relative seeks

将模式形式 "r" 更改为 "r+" 无法解决问题。这个错误的原因是什么,我该如何解决?

根据this bug report,您需要用mode='rb'打开。

import PyPDF2 as pdf2

with open ("sample.pdf", "rb") as f:
   pdf = pdf2.PdfFileReader(f)

打开 pdf 文件并打印第一页的简单程序如下,

import PyPDF2 

pdfFileObj = open('example.pdf', 'rb') 

pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

print(pdfReader.numPages) # printing number of pages in pdf


pageObj = pdfReader.getPage(0) 


print(pageObj.extractText()) # extracting text from page 0


pdfFileObj.close()