PyPDF2 按页拆分 pdf

Question

我想使用 PyPDF2 拆分 pdf 文件。

网络中的所有例子都太难或不起作用或总是报错"AttributeError: 'PdfFileWriter' object has no attribute 'stream'"

有人可以帮忙吗？需要将一个 3 页的 pdf 分成三个不同的文件。

我从那开始：

pdfFileObj = open(r"D:\BPO\act.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfWriter = PyPDF2.PdfFileWriter()
pdfWriter.addPage(pdfReader.getPage(0))

但是不知道接下来要做什么:(

编辑#1

我试着做一个分割循环，但我遇到了一个问题：PdfFileWriter 制作 3 个文件，一个有一页，第二个有两页，第三个有三页。我在以下代码中的错误在哪里：

act_sub_pages_name = ['p01.pdf', 'p02.pdf', 'p03.pdf']
with open(r"D:\BPO\act.pdf", 'rb') as act_mls:
    reader = PdfFileReader(act_mls)
    writer = PdfFileWriter()
    if reader.numPages == 3:
        counter = 0
        for x in range(3):
            path = '\'.join(['D:\BPO\act sub pages', act_sub_pages_name[counter]])
            counter += 1
            writer.addPage(reader.getPage(x))
            with open(path, 'wb') as outfile: writer.write(outfile)

抱歉英语不好。

编辑#2

根据 Paul Rooney 的回答我的解决方案：

act_pdf_file = 'D:\BPO\act.pdf'
act_sub_pages_name = ['p01.pdf', 'p02.pdf', 'p03.pdf']

def pdf_splitter(index, src_file):
    with open(src_file, 'rb') as act_mls:
        reader = PdfFileReader(act_mls)
        writer = PdfFileWriter()
        writer.addPage(reader.getPage(index))
        out_file = os.path.join('D:\BPO\act sub pages', act_sub_pages_name[index])
        with open(out_file, 'wb') as out_pdf: writer.write(out_pdf)

for x in range(3): pdf_splitter(x, act_pdf_file)

使用功能一切正常，但有点困难。

Answer 1

我使用了一个名为 xpdf 的工具来完成这类任务，而且效果非常好。可以下载here.

这是一个命令行实用程序，您可以从 python 调用它。确保它已添加到您的路径中，以便您可以从命令行调用它。

以下是如何从 python 连接它，使用 subprocess:

import subprocess

text, _ = subprocess.Popen('pdftotext -fixed 0 -clip D:\BPO\act.pdf', 
                           shell=True, 
                           stdout=subprocess.PIPE).communicate()

pages = text.decode('latin-1').split('\f')

页面由换页字符分隔，因此您会得到一个页面列表。

Answer 2

您可以使用 PdfFileWriter 的 write 方法写入文件。

from PyPDF2 import PdfFileReader, PdfFileWriter

with open("input.pdf", 'rb') as infile:

    reader = PdfFileReader(infile)
    writer = PdfFileWriter()
    writer.addPage(reader.getPage(0))

    with open('output.pdf', 'wb') as outfile:
        writer.write(outfile)

您可能想要遍历输入文件的页面，创建一个新的编写器对象，添加一个页面。然后写出一个不断递增的文件名或有一些其他方案来决定输出文件名？

PyPDF2 按页拆分 pdf

PyPDF2 split pdf by pages

python

pypdf2