可以从 pandoc 的自包含 HTML 文件中提取图像吗?

Can one extract images from pandoc's self-contained HTML files?

我使用带有 --self-contained 选项的 pandoc 来创建 HTML 文档,其中图像作为 base64 嵌入 HTML 代码中。

图片像这样包含在 IMG 标签中(我用占位符替换了一长串 base64 字符: <IMG src="data:image/png;base64,<<base64-coded characters here>>" width=672">

现在,我想提取此类图像,即执行相反的操作,将 base64 编码的数据替换为对文件的引用,并将数据转换为保存在磁盘上的普通 PNG 或 JPEG 文件。

我希望使用 pandoc 进行这种转换,但我在 pandoc 中找不到这个选项,也没有找到任何其他软件可以做到这一点。理想情况下,解决方案应该 shell/script-type 可以轻松包含在更长的工具链中。

您可以将 pandoc 与 --extract-media 选项一起使用。图像将写入提供的目录,base64 URL 将替换为对这些文件的引用。

例如

pandoc --from=html YOUR_FILE.html --extract-media=images