Python: 用图片解析pdf
Python: parse pdf with images
我想解析一些包含文本且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以供进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。什么应该是最好的模块?
pdfminer 将获取您的文本。 pdfrw(免责声明:我是 pdfrw 的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有一些示例可以将 PDF 拆分为单独的页面,因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您 运行 inkscape 处于无头模式(例如从 subprocess 模块),它可以读取 PDF 并输出不同的格式。
我想解析一些包含文本且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以供进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。什么应该是最好的模块?
pdfminer 将获取您的文本。 pdfrw(免责声明:我是 pdfrw 的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有一些示例可以将 PDF 拆分为单独的页面,因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您 运行 inkscape 处于无头模式(例如从 subprocess 模块),它可以读取 PDF 并输出不同的格式。