将 XML 生成的 Word DOCX 逆向工程回 XML

Reverse-engineer a Word DOCX generated by XML back to XML

我有一个最初使用 XML 生成的 word 文档。现在我想将它逆向工程回 XML 并获得原始的 XML 代码。最好的方法是什么?

现代 Word 文档 (DOCX) 基于 OOXML,由两部分组成:

  • Open Packaging Conventions (OPC),它是基于 Zip 的。您可以重命名 .zip 的 DOCX 文件扩展名并使用普通的 Zip 实用程序打开 它。
  • WordprocessingML,基于 XML。您可以使用常规 XML 工具 和解析器读写。

所以,在某种程度上,您的 DOCX 文件已经 XML。关于 "originally generated",嗯,这是数据来源的问题,而不是数据格式的问题。除了一些关于作者身份、创作 date/time 等的元数据外,没有任何东西可用于对 DOCX 文件进行逆向工程,从而将您带回到派生它的源数据。