PDF 文件操作(打开一个大的 pdf 文件,找到一个关键字,然后将找到的页面保存在其中,然后将这些页面拆分并合并为一个 pdf)

PDF File Manipulation (open a large pdf file, find a keyword, then save in which page was found, and then split those pages and merge them in one pdf)

我正在为我的一个朋友做一个项目。 我想找到一个在多个页面上的特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他地方有重复,然后将找到关键字的页面保存在内存中,然后拆分这些页面来自原始 PDF 文件,最后将它们合并在一起。

我正在考虑使用 PDFMinerPyPDF2(我也愿意接受其他建议)

我已经在编写大部分代码了,但是我想不出一个好的和有效的方法来搜索文件并找到那个关键字,因为这个关键字位于文件中的其他地方同一个文件,并确保我想从原始文件中提取的数据不重复,并且所有数据都已提取。

提前致谢。

您是否尝试过将 pdf 文件拆分成几个块并在每个块上使用多线程搜索关键字?这应该会更快。