使用 Spray 解析 HTML

Parsing HTML with Spray

我在解析包含 &nbsp 实体的有效 HTML 时遇到异常 The entity “nbsp” was referenced, but not declared(这使得它 无效 XML; 我不控制服务器)同时将 HttpEntity 解组为 NodeSeqspray.httpx.unmarshalling.BasicUnmarshallers.NodeSeqUnmarshaller.

我可能可以预处理 HTML 以删除 &nbsp,但是使用 Spray 解析 HTML(使用 &nbsp)的公认方法是什么?

您可以尝试写一个 Custom Unmarshaller that wraps JSoup