从 pdf 文件中抓取一篇文章 - Python

Grabbing an article from a pdf file - Python

我有5000多个pdf文件,每个文件最少15页,最多20页。我用pypdf2找出5000个pdf文件中哪些有我要找的关键字,在哪一页。

现在我有以下数据:

我想知道是否有办法使用此数据获取特定页面上的特定文章。我现在知道要检查哪个文件名和哪个页面了。

非常感谢。

有一个名为 tika 的图书馆。它可以从单个页面中提取文本。您可以拆分您的 pdf,这样您只有相关页面仍然可用。然后你可以使用:

parsed_page = parser.from_file('sample.pdf')
print(parsed_page['content'])

注意:此库需要 Java 安装在系统上