获取带有 PDF 的文本 Reader？

Question

如何在阅读pdf时只得到这么简单的文字？

CLSAI10608

此代码始终以 CLXXXXXXXX, LEN = 10 开头。

代码：

import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())

输出：

output

Answer 1

所以我提出的正则表达式模式搜索以 CL 开头的内容，然后是 8 个非空白字符。 regex101.com 提供了一个方便的解释。

import re

string = r"""Detalle

Total

4040CL02

  Correccion de BL

CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000

47.020"""

match = re.search(r"[C][L]\S{8}", string)
if match:
    code = match.group()
    print(code)

输出：CLSAI10608

所以你想用 pageobj.extractText() 替换 string。

获取带有 PDF 的文本 Reader？

Get Text with a PDF Reader?

python

pdf

pdf-reader

pypdf2