SAXON Error- 如何 ignore/skip 呢?

SAXON Error- How to ignore/skip it?

使用 Saxon HE(网络版)wget 和批处理,我正在尝试转换通过 wget 下载的页面。

每当调用页面上的命令时,我都会收到以下错误:

SXXP0003: Error reported by XML parser: The entity name must immediately follow the '&' in the entity reference.

它与一段非常尴尬的 javescript 行中的一行有关。但是,我无法控制要转换的页面,因此我无法针对该错误在这一侧采取任何措施。

有什么方法可以让 Saxon 跳过这些错误吗?我不介意它是否会删除整个标签,因为我不想从 javascript 元素中读取任何数据。

非常感谢!

如错误消息所述,这是底层 XML 解析器报告的错误,Saxon 用来解析您提供给它的文档的标记。如果它的格式不正确 XML 那么任何 XML 解析器都会拒绝它。 Saxon 在 class 道路上为您提供 the choice to use an HTML tag soup parser like TagSoup instead by calling it with the option -x:org.ccil.cowan.tagsoup.Parser if you put TagSoup from http://home.ccil.org/~cowan/tagsoup/