如何在从 docx 转换为 HTML 时修改 pandoc 输出的 HTML?
How to modify the HTML outputted by pandoc while converting from docx to HTML?
我正在使用 python 的 Pypandoc 模块。我用于转换的代码是:
html = pypandoc.convert(
tmp_loc,
'html5',
extra_args=['--extract-media=']
)
此代码将 docx 转换为 HTML 并存储在 'html' 中,同时从 docx 中提取图像并将它们存储到名称为 image01.jpg 的媒体存储库中。 HTML中的img src是:
<img src="/media/image01.jpg" />
现在我想做的是把图片的名字,也就是image01.jpg改成一个更方便的名字。我可以轻松更改存储库中图像的名称。但是如何更新pypandoc输出的HTML中的img src标签?
谢谢
我认为问题实际上与 docx 有关。在这些文档中,每个图像都有自己的名称,即使它是隐藏的。您可以在图像属性中查看它 - 而且,自动名称是 - 当然! - 图片XX!因此,我建议更改文档本身中图像的名称,然后再次转换。
如果您有太多图像并且想以某种方式自动执行此过程,请尝试一些十六进制编辑器(我建议 linux 中的 ghex)和 "search and replace" 功能。您可以将 "image" 替换为 "something",结果文件将是 "somethingXX.jpg"
我只是将每个上传文件放在自己的目录中(uploadX/index.html
和 uploadX/media/imageY.jpg
等)。
或者至少在转换为 HTML 之后进行重命名(比 docx 更好用),例如在文件名前加上一个唯一的 ID,例如 uploadX_imageY.jpg
,并使用 HTMLParser.
之类的东西调整链接
我正在使用 python 的 Pypandoc 模块。我用于转换的代码是:
html = pypandoc.convert(
tmp_loc,
'html5',
extra_args=['--extract-media=']
)
此代码将 docx 转换为 HTML 并存储在 'html' 中,同时从 docx 中提取图像并将它们存储到名称为 image01.jpg 的媒体存储库中。 HTML中的img src是:
<img src="/media/image01.jpg" />
现在我想做的是把图片的名字,也就是image01.jpg改成一个更方便的名字。我可以轻松更改存储库中图像的名称。但是如何更新pypandoc输出的HTML中的img src标签?
谢谢
我认为问题实际上与 docx 有关。在这些文档中,每个图像都有自己的名称,即使它是隐藏的。您可以在图像属性中查看它 - 而且,自动名称是 - 当然! - 图片XX!因此,我建议更改文档本身中图像的名称,然后再次转换。
如果您有太多图像并且想以某种方式自动执行此过程,请尝试一些十六进制编辑器(我建议 linux 中的 ghex)和 "search and replace" 功能。您可以将 "image" 替换为 "something",结果文件将是 "somethingXX.jpg"
我只是将每个上传文件放在自己的目录中(uploadX/index.html
和 uploadX/media/imageY.jpg
等)。
或者至少在转换为 HTML 之后进行重命名(比 docx 更好用),例如在文件名前加上一个唯一的 ID,例如 uploadX_imageY.jpg
,并使用 HTMLParser.