从 pdf 文件中抓取一篇文章 - Python

Question

我有5000多个pdf文件，每个文件最少15页，最多20页。我用pypdf2找出5000个pdf文件中哪些有我要找的关键字，在哪一页。

现在我有以下数据：

我想知道是否有办法使用此数据获取特定页面上的特定文章。我现在知道要检查哪个文件名和哪个页面了。

非常感谢。

Answer 1

有一个名为 tika 的图书馆。它可以从单个页面中提取文本。您可以拆分您的 pdf，这样您只有相关页面仍然可用。然后你可以使用：

parsed_page = parser.from_file('sample.pdf')
print(parsed_page['content'])

注意：此库需要 Java 安装在系统上

Grabbing an article from a pdf file - Python