PDF 文件操作(打开一个大的 pdf 文件,找到一个关键字,然后将找到的页面保存在其中,然后将这些页面拆分并合并为一个 pdf)
PDF File Manipulation (open a large pdf file, find a keyword, then save in which page was found, and then split those pages and merge them in one pdf)
我正在为我的一个朋友做一个项目。
我想找到一个在多个页面上的特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他地方有重复,然后将找到关键字的页面保存在内存中,然后拆分这些页面来自原始 PDF 文件,最后将它们合并在一起。
我正在考虑使用 PDFMiner 或 PyPDF2(我也愿意接受其他建议)
我已经在编写大部分代码了,但是我想不出一个好的和有效的方法来搜索文件并找到那个关键字,因为这个关键字位于文件中的其他地方同一个文件,并确保我想从原始文件中提取的数据不重复,并且所有数据都已提取。
提前致谢。
您是否尝试过将 pdf 文件拆分成几个块并在每个块上使用多线程搜索关键字?这应该会更快。
我正在为我的一个朋友做一个项目。 我想找到一个在多个页面上的特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他地方有重复,然后将找到关键字的页面保存在内存中,然后拆分这些页面来自原始 PDF 文件,最后将它们合并在一起。
我正在考虑使用 PDFMiner 或 PyPDF2(我也愿意接受其他建议)
我已经在编写大部分代码了,但是我想不出一个好的和有效的方法来搜索文件并找到那个关键字,因为这个关键字位于文件中的其他地方同一个文件,并确保我想从原始文件中提取的数据不重复,并且所有数据都已提取。
提前致谢。
您是否尝试过将 pdf 文件拆分成几个块并在每个块上使用多线程搜索关键字?这应该会更快。