Pdf miner如何提取图像

Question

我正在尝试使用 pdfminer.six

从 PDF 文件中提取图像

似乎没有关于如何使用 Python 执行此操作的任何文档。

这是我目前拥有的：

import os
import pdfminer

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

os.chdir('C:\Users\zone_\Desktop')
diretorio = os.getcwd()
file = str(diretorio) + '\example.pdf'

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

这是提取文本，但如何检索pdf中的图像？

Answer 1

我从未使用过 pdfminer，但我发现 this code and this document 来自 Denis Papathanasiou 的解释，这可能有助于解决这个问题，因为 pdfminer 的文档不是很详尽。该文档来自过时版本，但最近更新了代码。

如果您不需要使用 pdfminer，可以使用更简单的替代方法，例如 this answer 中的 PyMuPDF，它将 PDF 中的所有图像提取为 PNG。

Answer 2

最新版本的 PDFMiner 提供 pdfminer.image.ImageWriter class，它处理图像序列化。你可以这样使用它：

import pdfminer
from pdfminer.image import ImageWriter
from pdfminer.high_level import extract_pages

pages = list(extract_pages('document.pdf'))
page = pages[0]


def get_image(layout_object):
    if isinstance(layout_object, pdfminer.layout.LTImage):
        return layout_object
    if isinstance(layout_object, pdfminer.layout.LTContainer):
        for child in layout_object:
            return get_image(child)
    else:
        return None


def save_images_from_page(page: pdfminer.layout.LTPage):
    images = list(filter(bool, map(get_image, page)))
    iw = ImageWriter('output_dir')
    for image in images:
        iw.export_image(image)


save_images_from_page(page)

您也可以使用命令行工具，如 documentation 中所述。

Pdf miner如何提取图像

Pdf miner how to extract images

python

pdf

pdfminer