使用 pyPdf 在 Python 中裁剪页面

Question

我正在编写脚本以从 PDF 中提取一些数据。 PDF 本身非常复杂，因为它有多个列。所以我想出我应该裁剪每一列并连接这些列以制作一个新的 PDF，它更适合使用 pyPdf 进行解析。这是我的代码：

for i in range(numPages):
    page1 = input1.getPage(i)
    page1.trimBox.lowerLeft=(0,550)
    page1.trimBox.upperRight = (480, 842)
    page1.cropBox.lowerLeft = (0, 550)
    page1.cropBox.upperRight = (480, 842)
    output.addPage(page1)
    page2= input2.getPage(i)
    print page1.mediaBox.getUpperRight_x(), page1.mediaBox.getUpperRight_y()
    page2.trimBox.lowerLeft=(0,280)
    page2.trimBox.upperRight = (480, 550)
    page2.cropBox.lowerLeft = (0, 280)
    page2.cropBox.upperRight = (480, 550)
    output.addPage(page2)
    page3 = input3.getPage(i)
    page3.trimBox.lowerLeft=(0,0)
    page3.trimBox.upperRight = (480, 280)
    page3.cropBox.lowerLeft = (0, 0)
    page3.cropBox.upperRight = (480, 280)
    output.addPage(page3)

outputStream = file("out.pdf", "wb")
output.write(outputStream)
outputStream.close()

然后，我将此 PDF 发送到 PHP 服务器进行解析并获取文本。出乎意料的是，这并没有帮助。 cropBox 原来是在改变 PDF 的可视部分。其他部分都在那里，只是无法查看。当我使用 PHP 处理新的 PDF 时，我得到了相同的结果。我的问题是：有没有办法让cropBox真正裁剪框并忽略PDF页面的剩余部分？

Answer 1

我在 Python 中尝试了多个其他库，但它们没有帮助。后来，我偶然发现了 pdfBox ，它被证明是一个非常有用的库。在文本提取方面比 PDFMiner 和 pyPdf 好得多。我可以使用具有高度和 width.Its 的矩形的 x 和 y 位置提取文本，唯一的缺点是我没有找到它的 Python 包装器，所以我不得不在 [=14= 中编写应用程序].

使用 pyPdf 在 Python 中裁剪页面

Crop a Page in Python Using pyPdf

python

pdf

pypdf