如何检测使用 PyPDF2.extractText 成功提取 pdf 文本的时间?

我正在使用 PyPDF2 库通过其 extractText 功能从 PDF 文件中提取文本,对于大多数 PDF,它工作得很好!

但是,某些 PDF 生成的文本如下所示:


根据 the docs,这是意料之中的:

This works well for some PDF files, but poorly for others, depending on the generator used.

不幸的是,extractText() 函数在输出上述文本时不会引发任何异常。

所以,我的问题是,有没有办法以编程方式检测 extractText() 函数何时出现 returns 乱码?


document_path 假定为您正在打开的 PDF 文件的路径。其余的应该是不言自明的。

from PyPDF2 import PdfFileReader
from nltk.corpus import words

words = words.words()
document_file = PdfFileReader(open(document_path, 'rb'))
num_pages = document_file.getNumPages()
for page_num in range(0, num_pages):
    page = document_file.getPage(page_num)
    page_contents = page.extractText()
    if set(page_contents.lower().split()).intersection(words):
        # process page_contents