维护 PyPDF2 的替代品

Maintained alternatives to PyPDF2

我已经使用 PyPDF2 library for extracting text, images, page width and heights, annotations, and other attributes from pdf documents. However, the library has many bugs and issues and seems not to be maintained 很长时间了。 (编辑:PyPDF2 再次维护

据我所知,reportlab 更适合创建全新的 pdf(或者我对 reportlab 的经验不足)。

PyMuPDF is a Python binding for MuPDF – a lightweight PDF and XPS viewer. Because MuPDF supports not only PDF but also XPS, OpenXPS, CBZ, CBR, FB2, and EPUB formats, so does PyMuPDF. PyMuPDF is hosted on GitHub. We also are registered on PyPI.

它的性能统计数据也非常有前途。以下是处理性能不同方面的三个部分:

  • 文档解析
  • 文本提取
  • 图像渲染

PyMuPDF is the faster than pdfrw, PyPDF2, and pdftk.

更新:PyPDF2 再次维护 - 我是维护者 :-) 我刚刚发布了一个新版本,修复了几个错误。


维护的三个潜在替代方案(就像 PyPDF2 一样):

我不会用:

  • PyPDF3 (pypi): 比 PyPDF2 少 activity 和可能少的功能。
  • PyPDF4 (pypi): 2018 年 PyPI 上的最后一个版本