如何解析和修改Node.js中的XHTML(支持HTML实体和CDATA部分)?

How to parse and modify XHTML in Node.js (supporting HTML entities and CDATA sections)?

我正在开发一个接收 XHTML 片段(Confluence 存储格式)的 Node.js 应用程序,应该对其进行一些修改,然后将修改后的 XHTML 发回。 XHTML 可能包含 HTML 实体(例如 &ouml;)以及 CDATA 部分(例如 <![CDATA[test]]>)。

我 运行 遇到的挑战是,使用我尝试过的解析器,当我在 HTML 模式下解析代码段时,CDATA 部分会中断,但是当我解析它时在 XML 模式下,HTML 实体没有被正确解释。

下面是一个例子,我如何让它在浏览器中工作,但我如何使用 jsdom 和 cheerio 让它工作失败。我可以使用任何其他库来实现此目的,或者使用 jsdom 或 cheerio 的任何不同方式吗?

在浏览器中

在浏览器中,我可以在 XML 模式下使用 DOMParser。使用测试片段 <span>&ouml;<![CDATA[ä]]></span>,我可以将其包装在 XHTML 正文中:

const doc = new DOMParser().parseFromString(`<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html><body><span>&ouml;<![CDATA[ä]]></span></body></html>`, 'application/xml');
doc.querySelector('body').innerHTML;   // <span>ö<![CDATA[ä]]></span>
doc.querySelector('body').textContent; // öä

XML MIME 类型确保正确解释 CDATA 部分,而 XHTML DOCTYPE 确保支持实体。

jsdom

为了在 Node.js 中实现同样的效果,我尝试使用 jsdom。问题是当我在 HTML 模式下解析代码时,CDATA 部分被转换为注释,但是当我在 XML 模式下解析它时,由于 HTML实体:

import { JSDOM } from 'jsdom';
const xhtml = `<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html><body><span>&ouml;<![CDATA[ä]]></span></body></html>`;

new JSDOM(xhtml).window.document.body.innerHTML; // <span>ö<!--[CDATA[ä]]--></span>
new JSDOM(xhtml).window.document.body.textContent; // ö
new JSDOM(xhtml, { contentType: 'application/xml' }); // Uncaught DOMException [SyntaxError]: about:blank:1:186: undefined entity.

更新: 我有 reported jsdom 的问题。

欢呼声

我在后端进行 DOM 修改的首选方法是 cheerio。在 HTML 模式下使用 cheerio,CDATA 部分将转换为注释。在 XML 模式下,实体不被解释而是双重转义为 &amp;ouml;。在不解码实体的XML模式下,XHTML被正确保存,但是实体没有被正确解释,在获取文本内容时可以看到。

import cheerio from 'cheerio';
const xhtml = `<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html><body><span>&ouml;<![CDATA[ä]]></span></body></html>`;

cheerio.load(xhtml).root().find('body').html(); // <span>ö<!--[CDATA[ä]]--></span>
cheerio.load(xhtml).root().find('body').text(); // ö
cheerio.load(xhtml, { xmlMode: true }).root().find('body').html(); // <span>&amp;ouml;<![CDATA[ä]]></span>
cheerio.load(xhtml, { xmlMode: true }).root().find('body').html(); // &ouml;ä
cheerio.load(xhtml, { xmlMode: true, decodeEntities: false }).root().find('body').html(); // <span>&ouml;<![CDATA[ä]]></span>
cheerio.load(xhtml, { xmlMode: true, decodeEntities: false }).root().find('body').text(); // &ouml;ä

更新: 我有 reported 问题给 cheerio。

我是 pointed out cheerio 中问题的解决方法:

cheerio.load(xhtml, { xml: { xmlMode: false, recognizeCDATA: true, recognizeSelfClosing: true } });

使用这些选项,我可以在 Node.js 环境中成功解析 XHTML。

除了这个解决方案,我注意到在浏览器中使用 DOMParser 的缺点是浏览器之间存在不一致。特别是,当结合使用查询选择器和 XML 命名空间时,我有时不得不在查询中包含命名空间,有时则不需要。由于这些不一致,jquery 也 officially doesn't support XML namespaces。为了在浏览器之间以及前端、前端测试和后端之间实现一致的行为,我决定使用 cheerio 甚至在浏览器中解析 XHTML。