使用 Spray 解析 HTML

Parsing HTML with Spray

scala
spray
spray-client

我在解析包含 &nbsp 实体的有效 HTML 时遇到异常 The entity “nbsp” was referenced, but not declared（这使得它无效 XML; 我不控制服务器）同时将 HttpEntity 解组为 NodeSeq 和 spray.httpx.unmarshalling.BasicUnmarshallers.NodeSeqUnmarshaller.

我可能可以预处理 HTML 以删除 &nbsp，但是使用 Spray 解析 HTML（使用 &nbsp）的公认方法是什么？

您可以尝试写一个 Custom Unmarshaller that wraps JSoup。

使用 Spray 解析 HTML

Parsing HTML with Spray

scala

spray

spray-client