用于管理 PDF 文件的 PyPDF2 有哪些替代方案？

Question

试图阅读议会的日常工作，我发现这些文件被分割成许多PDF文件，不能简单地用浏览器打开阅读，必须单独下载。我的基本想法是下载所有文档并提取所有已做出决定的标题

之前的帖子建议使用 PyPDF2。显然这对我来说根本不起作用。 PDF 中的字符是希腊字母，因此编码可能与它有关。最重要的是，在文档的末尾，添加了一些图片（我不感兴趣）。

PyPDF2 是否有机会解决这个问题，或者我应该看看其他地方吗？

Answer 1

如果你只是在文本之后，似乎 PyPDF2 doesn't support CMaps 如果你尝试这样做，你会因此得到垃圾：

from PyPDF2 import PdfFileReader

with open('document.pdf', 'rb') as fd:
  pdf = PdfFileReader(fd)
  p1 = pdf.getPage(0)
  print(p1.extractText())

有一个开放的 pull request 可以解决这个问题。它没有被合并，但如果你想要它，你可以把它拉出来，因为它看起来很独立。

What are some alternatives to PyPDF2 for managing PDF files?