如何将 HTML 转换为 XML(符合 XML 架构或 DTD)

How can I convert HTML to XML (which conforms with XML schema or DTD)

我正在尝试将一些 HTML 文件转换为 ubuntu 上的 XML 格式,它们应该符合特定的 XML 模式或 DTD。我想 Tidy 应该这样做,但我不明白它的语法。或者,如果有其他工具,我很乐意试用它们。 例如:将file.htm转换为file.xml(符合standard.DTD) 谢谢

Tidy可以将HTML转换为XHTML(元素和属性结构相同,但满足XML良构的规则),但无法转换以满足一些任意 DTD 的要求。

您需要为此编写两种数据格式之间的显式映射。 XSLT 是一种流行的语言。