使用 Spray 解析 HTML
Parsing HTML with Spray
我在解析包含  
实体的有效 HTML 时遇到异常 The entity “nbsp” was referenced, but not declared
(这使得它 无效 XML; 我不控制服务器)同时将 HttpEntity
解组为 NodeSeq
和 spray.httpx.unmarshalling.BasicUnmarshallers.NodeSeqUnmarshaller
.
我可能可以预处理 HTML 以删除  
,但是使用 Spray 解析 HTML(使用  
)的公认方法是什么?
您可以尝试写一个 Custom Unmarshaller that wraps JSoup。
我在解析包含  
实体的有效 HTML 时遇到异常 The entity “nbsp” was referenced, but not declared
(这使得它 无效 XML; 我不控制服务器)同时将 HttpEntity
解组为 NodeSeq
和 spray.httpx.unmarshalling.BasicUnmarshallers.NodeSeqUnmarshaller
.
我可能可以预处理 HTML 以删除  
,但是使用 Spray 解析 HTML(使用  
)的公认方法是什么?
您可以尝试写一个 Custom Unmarshaller that wraps JSoup。