从 Python 中的 PDF 中提取文本
Extracting text from PDF in Python
我有一个充满引语的 PDF:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码提取 python 中的文本:
import PyPDF2
pdfFileObj = open('example.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print (pageObj.extractText())
此returns全部引用为一段。是否可以通过水平分隔符 'split' pdf 并将其拆分为引号?
我找不到用水平分隔符拆分它的方法,但我设法用另一种方式做到了:
import PyPDF2
quotes = []
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5
如果您只想从 pdf 文本中提取引号,您可以使用 regex
查找所有引号。
import PyPDF2
import re
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
text = str(pageObj.extractText())
quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
print quote
print
或者只是
quotes = re.findall(r'"[^"]*"',text)
print quotes
import pdfplumber
pdf = pdfplumber.open(file_path)
p0 = pdf.pages[0]
text = p0.extract_text()
text
我有一个充满引语的 PDF:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码提取 python 中的文本:
import PyPDF2
pdfFileObj = open('example.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print (pageObj.extractText())
此returns全部引用为一段。是否可以通过水平分隔符 'split' pdf 并将其拆分为引号?
我找不到用水平分隔符拆分它的方法,但我设法用另一种方式做到了:
import PyPDF2
quotes = []
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5
如果您只想从 pdf 文本中提取引号,您可以使用 regex
查找所有引号。
import PyPDF2
import re
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
text = str(pageObj.extractText())
quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
print quote
print
或者只是
quotes = re.findall(r'"[^"]*"',text)
print quotes
import pdfplumber
pdf = pdfplumber.open(file_path)
p0 = pdf.pages[0]
text = p0.extract_text()
text