使用 pyPDF2 创建多个列表或字典来保存 PDF 对象?
Creating multiple lists or a dictionary to save PDF object using pyPDF2?
我有多个 PDF 文件,我需要从中提取文本。我正在使用 pyPDF2 包从每个 PDF 文件中提取文本。我需要将每次提取保存到新的列表变量或字典中,以便以后访问它们以进行污名化处理
到目前为止我使用了以下代码,我对在我的代码块中使用 for
循环创建多个列表变量感到困惑
new1=[]
new2=[]
for i in range(len(d[extension[4]])):
pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
new1.append(pdfFileObj)
new2.append(pdfReader)
PDFfile0 =[]
PDFfile1 =[]
PDFfile2 =[]
PDFfile3 =[]
PDFfile4 =[]
for j in range(5):
for i in range(new2[j].numPages):
pageObj = pdfReader.getPage(i)
text = pageObj.extractText()
PDFfile+str(j).append(text) # here i am facing problem
其中 d(extension[4])
是 pdf。
我需要将每个结果保存在一个新的 PDFfilen...列表中。
将它们放入列表列表中。换句话说,这些是:
new1=[]
new2=[]
for i in range(len(d[extension[4]])):
pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
new1.append(pdfFileObj)
new2.append(pdfReader)
NUM_LISTS = 5
PDFfiles = [[] for _ in range(NUM_LISTS)]
for j in range(NUM_LISTS):
for i in range(new2[j].numPages):
pageObj = pdfReader.getPage(i)
text = pageObj.extractText()
PDFfiles[j].append(text) # Use index to select sublist.
我有多个 PDF 文件,我需要从中提取文本。我正在使用 pyPDF2 包从每个 PDF 文件中提取文本。我需要将每次提取保存到新的列表变量或字典中,以便以后访问它们以进行污名化处理
到目前为止我使用了以下代码,我对在我的代码块中使用 for
循环创建多个列表变量感到困惑
new1=[]
new2=[]
for i in range(len(d[extension[4]])):
pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
new1.append(pdfFileObj)
new2.append(pdfReader)
PDFfile0 =[]
PDFfile1 =[]
PDFfile2 =[]
PDFfile3 =[]
PDFfile4 =[]
for j in range(5):
for i in range(new2[j].numPages):
pageObj = pdfReader.getPage(i)
text = pageObj.extractText()
PDFfile+str(j).append(text) # here i am facing problem
其中 d(extension[4])
是 pdf。
我需要将每个结果保存在一个新的 PDFfilen...列表中。
将它们放入列表列表中。换句话说,这些是:
new1=[]
new2=[]
for i in range(len(d[extension[4]])):
pdfFileObj= open(mydir+'\'+d[extension[4]][i],'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
new1.append(pdfFileObj)
new2.append(pdfReader)
NUM_LISTS = 5
PDFfiles = [[] for _ in range(NUM_LISTS)]
for j in range(NUM_LISTS):
for i in range(new2[j].numPages):
pageObj = pdfReader.getPage(i)
text = pageObj.extractText()
PDFfiles[j].append(text) # Use index to select sublist.