可以从 pandoc 的自包含 HTML 文件中提取图像吗?
Can one extract images from pandoc's self-contained HTML files?
我使用带有 --self-contained 选项的 pandoc 来创建 HTML 文档,其中图像作为 base64 嵌入 HTML 代码中。
图片像这样包含在 IMG 标签中(我用占位符替换了一长串 base64 字符:
<IMG src="data:image/png;base64,<<base64-coded characters here>>" width=672">
现在,我想提取此类图像,即执行相反的操作,将 base64 编码的数据替换为对文件的引用,并将数据转换为保存在磁盘上的普通 PNG 或 JPEG 文件。
我希望使用 pandoc 进行这种转换,但我在 pandoc 中找不到这个选项,也没有找到任何其他软件可以做到这一点。理想情况下,解决方案应该 shell/script-type 可以轻松包含在更长的工具链中。
您可以将 pandoc 与 --extract-media
选项一起使用。图像将写入提供的目录,base64 URL 将替换为对这些文件的引用。
例如
pandoc --from=html YOUR_FILE.html --extract-media=images
我使用带有 --self-contained 选项的 pandoc 来创建 HTML 文档,其中图像作为 base64 嵌入 HTML 代码中。
图片像这样包含在 IMG 标签中(我用占位符替换了一长串 base64 字符:
<IMG src="data:image/png;base64,<<base64-coded characters here>>" width=672">
现在,我想提取此类图像,即执行相反的操作,将 base64 编码的数据替换为对文件的引用,并将数据转换为保存在磁盘上的普通 PNG 或 JPEG 文件。
我希望使用 pandoc 进行这种转换,但我在 pandoc 中找不到这个选项,也没有找到任何其他软件可以做到这一点。理想情况下,解决方案应该 shell/script-type 可以轻松包含在更长的工具链中。
您可以将 pandoc 与 --extract-media
选项一起使用。图像将写入提供的目录,base64 URL 将替换为对这些文件的引用。
例如
pandoc --from=html YOUR_FILE.html --extract-media=images