Python: 用图片解析pdf

Python: parse pdf with images

python
pdf-parsing

我想解析一些包含文本且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以供进一步处理，并将图像保存为 jpeg/png 或任何其他图像格式。什么应该是最好的模块？

pdfminer 将获取您的文本。 pdfrw（免责声明：我是 pdfrw 的作者）有一些示例可以找到图像并将它们转储到单独的页面，还有一些示例可以将 PDF 拆分为单独的页面，因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您运行 inkscape 处于无头模式（例如从 subprocess 模块），它可以读取 PDF 并输出不同的格式。

Python: 用图片解析pdf

Python: parse pdf with images

python

pdf-parsing