PDF 文件操作（打开一个大的 pdf 文件，找到一个关键字，然后将找到的页面保存在其中，然后将这些页面拆分并合并为一个 pdf）

PDF File Manipulation (open a large pdf file, find a keyword, then save in which page was found, and then split those pages and merge them in one pdf)

我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字，并且它在大型 PDF 文件（40-60 页及以上）的其他地方有重复，然后将找到关键字的页面保存在内存中，然后拆分这些页面来自原始 PDF 文件，最后将它们合并在一起。

我正在考虑使用 PDFMiner 或 PyPDF2（我也愿意接受其他建议）

我已经在编写大部分代码了，但是我想不出一个好的和有效的方法来搜索文件并找到那个关键字，因为这个关键字位于文件中的其他地方同一个文件，并确保我想从原始文件中提取的数据不重复，并且所有数据都已提取。

提前致谢。

您是否尝试过将 pdf 文件拆分成几个块并在每个块上使用多线程搜索关键字？这应该会更快。