如何使用坐标从pdf图像文件中提取数据?
How to extract data from pdf image file with the coordinates?
如何从坐标中的PDF图像文件中提取文本,使用
python 及其外部库。
from wand.image import Image as wi
from PIL import Image
pdf = wi (filename=("F:\cng-example-bill.pdf")
pdfImg = pdf.convert('jpg')
crop_img = pdfImg.crop((35, 20, 40, 35))
print(crop_imp)
尝试将 PDF 文件转换为 jpg 文件的代码片段,
从 jpg 试图提取基于坐标的数据。
该程序应根据图像文件的坐标给出输出(数据)
pdf.convert('jpg')
行只是克隆堆栈,并设置格式 属性。 pdfImg.crop
returns True
成功,return 没有任何数据。您可以将代码段重写为...
from wand.image import Image as wi
pdf = wi(filename=("F:\cng-example-bill.pdf[0]")
pdf.crop(left=35, top=20, width=40, height=35)
crop_img = pdf.make_blob('jpg')
注意"F:\cng-example-bill.pdf[0]"
只解码PDF的第一页,裁剪区域是40x35+35+20
区域。 crop_img
是JPG文件数据,不是像素数据,也就是pdf-text数据。
如何从坐标中的PDF图像文件中提取文本,使用 python 及其外部库。
from wand.image import Image as wi
from PIL import Image
pdf = wi (filename=("F:\cng-example-bill.pdf")
pdfImg = pdf.convert('jpg')
crop_img = pdfImg.crop((35, 20, 40, 35))
print(crop_imp)
尝试将 PDF 文件转换为 jpg 文件的代码片段, 从 jpg 试图提取基于坐标的数据。 该程序应根据图像文件的坐标给出输出(数据)
pdf.convert('jpg')
行只是克隆堆栈,并设置格式 属性。 pdfImg.crop
returns True
成功,return 没有任何数据。您可以将代码段重写为...
from wand.image import Image as wi
pdf = wi(filename=("F:\cng-example-bill.pdf[0]")
pdf.crop(left=35, top=20, width=40, height=35)
crop_img = pdf.make_blob('jpg')
注意"F:\cng-example-bill.pdf[0]"
只解码PDF的第一页,裁剪区域是40x35+35+20
区域。 crop_img
是JPG文件数据,不是像素数据,也就是pdf-text数据。