将pdf转换为图像但放大后

converting pdf to image but after zooming in

展示了如何将 pdf 转换为图像。有没有办法在转换为图像之前缩放我的 pdfs?在我的项目中,我将 pdfs 转换为 pngs,然后使用 Python-tesseract 库来提取文本。我注意到,如果我缩放 pdfs,然后将部分保存为 pngs,那么 OCR 会提供更好的结果。那么有没有办法在转换为 png 之前缩放 pdf?

我认为提高图像质量(分辨率)比放大 pdf 更好。

使用 pdf2image 你可以很容易地做到这一点:

安装 pdf2image:pip install pdf2image

然后,在 python 中,将您的 pdf 转换为高质量图像:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

通过调整质量参数,您应该会得到想要的结果