使用 pyPDF2 创建多个列表或字典来保存 PDF 对象？

Question

我有多个 PDF 文件，我需要从中提取文本。我正在使用 pyPDF2 包从每个 PDF 文件中提取文本。我需要将每次提取保存到新的列表变量或字典中，以便以后访问它们以进行污名化处理

到目前为止我使用了以下代码，我对在我的代码块中使用 for 循环创建多个列表变量感到困惑

new1=[]
new2=[]
for i in range(len(d[extension[4]])):
    pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    new1.append(pdfFileObj)
    new2.append(pdfReader)

PDFfile0 =[]
PDFfile1 =[]
PDFfile2 =[]
PDFfile3 =[]
PDFfile4 =[]

for j in range(5):
    for i in range(new2[j].numPages):
       pageObj = pdfReader.getPage(i)
       text = pageObj.extractText()
       PDFfile+str(j).append(text)  # here i am facing problem

其中 d(extension[4]) 是 pdf。

我需要将每个结果保存在一个新的 PDFfilen...列表中。

Answer 1

将它们放入列表列表中。换句话说，这些是：

new1=[]
new2=[]
for i in range(len(d[extension[4]])):
    pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    new1.append(pdfFileObj)
    new2.append(pdfReader)

NUM_LISTS = 5
PDFfiles = [[] for _ in range(NUM_LISTS)]

for j in range(NUM_LISTS):
    for i in range(new2[j].numPages):
       pageObj = pdfReader.getPage(i)
       text = pageObj.extractText()
       PDFfiles[j].append(text)  # Use index to select sublist.

使用 pyPDF2 创建多个列表或字典来保存 PDF 对象？

Creating multiple lists or a dictionary to save PDF object using pyPDF2?

python

pdf

for-loop

pypdf2