获取带有 PDF 的文本 Reader?
Get Text with a PDF Reader?
如何在阅读pdf时只得到这么简单的文字?
CLSAI10608
此代码始终以 CLXXXXXXXX, LEN = 10
开头。
代码:
import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())
输出:
output
所以我提出的正则表达式模式搜索以 CL
开头的内容,然后是 8 个非空白字符。 regex101.com 提供了一个方便的解释。
import re
string = r"""Detalle
Total
4040CL02
Correccion de BL
CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000
47.020"""
match = re.search(r"[C][L]\S{8}", string)
if match:
code = match.group()
print(code)
输出:CLSAI10608
所以你想用 pageobj.extractText()
替换 string
。
如何在阅读pdf时只得到这么简单的文字?
CLSAI10608
此代码始终以 CLXXXXXXXX, LEN = 10
开头。
代码:
import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())
输出:
output
所以我提出的正则表达式模式搜索以 CL
开头的内容,然后是 8 个非空白字符。 regex101.com 提供了一个方便的解释。
import re
string = r"""Detalle
Total
4040CL02
Correccion de BL
CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000
47.020"""
match = re.search(r"[C][L]\S{8}", string)
if match:
code = match.group()
print(code)
输出:CLSAI10608
所以你想用 pageobj.extractText()
替换 string
。