jsoup 解析非典型标记

jsoup to parse atypical markup

我可以使用 jsoup 来解析非标准标记,例如 <LOCATION><PERSON><ORGANIZATION> 吗?

这是我语料库中的一个例句:

I HAD been hearing about vineyards in <LOCATION>Malibu</LOCATION> for some time,  
but I wrote them off. Had to be a tourist gimmick, like  
<PERSON>Knott</PERSON>'s <ORGANIZATION>Berry Farm</ORGANIZATION>  
or the LaBrea Tar Pits. <LOCATION>Malibu</LOCATION> was the playground of the stars,  
a surfers' mecca, but cabernet? No way.

我想提取如下内容:

Location: Malibu
Person: Knott
Organization: Berry Farm

如果它不是 HTML 规范的一部分,默认 parse 方法将不会处理自定义标记。

然而,您可以告诉 JSoup 将其解析为 XML:

Jsoup.parse(yourHtml, baseUriForLinks, Parser.xmlParser());

上面的命令将 return 一个 Document,您可以在其中使用自定义标记进行操作。

其中:

yourHtml - 自定义标记为 String

的 HTML

baseUriForLinks - HTML 的基础 URL(以便 JSoup 可以解析相关链接,如果存在)也作为 String