如何将多页 pdf 转换为单个 html 文件

Question

我正在实施 poppler pdftohtml 方法将 pdf 转换为 html。我正在尝试通过 python.运行执行文件。

import subprocess

subprocess.Popen([r"D:/poppler-0.68.0/bin/pdftohtml.exe" , 'name.pdf', 'name.html'])

使用上面的代码，我得到了我的 html 文件以及 pdf 格式的每一页的图像 (.jpg)。

我只需要 html 文件，不需要图像。我应该 changes/arguments make/add 什么才能得到预期的结果？

Answer 1

根据 their documentation，可能有两个选项可以帮助您解决这个问题：

-i ignore images

和

-s generate single HTML that includes all pages

如果这些都不管用，你就没有别的办法了。

How to convert multi-page pdf to single html file