jsoup 解析非典型标记
jsoup to parse atypical markup
我可以使用 jsoup 来解析非标准标记,例如 <LOCATION>
、<PERSON>
或 <ORGANIZATION>
吗?
这是我语料库中的一个例句:
I HAD been hearing about vineyards in <LOCATION>Malibu</LOCATION> for some time,
but I wrote them off. Had to be a tourist gimmick, like
<PERSON>Knott</PERSON>'s <ORGANIZATION>Berry Farm</ORGANIZATION>
or the LaBrea Tar Pits. <LOCATION>Malibu</LOCATION> was the playground of the stars,
a surfers' mecca, but cabernet? No way.
我想提取如下内容:
Location: Malibu
Person: Knott
Organization: Berry Farm
如果它不是 HTML 规范的一部分,默认 parse
方法将不会处理自定义标记。
然而,您可以告诉 JSoup 将其解析为 XML:
Jsoup.parse(yourHtml, baseUriForLinks, Parser.xmlParser());
上面的命令将 return 一个 Document
,您可以在其中使用自定义标记进行操作。
其中:
yourHtml
- 自定义标记为 String
的 HTML
baseUriForLinks
- HTML 的基础 URL(以便 JSoup 可以解析相关链接,如果存在)也作为 String
我可以使用 jsoup 来解析非标准标记,例如 <LOCATION>
、<PERSON>
或 <ORGANIZATION>
吗?
这是我语料库中的一个例句:
I HAD been hearing about vineyards in <LOCATION>Malibu</LOCATION> for some time,
but I wrote them off. Had to be a tourist gimmick, like
<PERSON>Knott</PERSON>'s <ORGANIZATION>Berry Farm</ORGANIZATION>
or the LaBrea Tar Pits. <LOCATION>Malibu</LOCATION> was the playground of the stars,
a surfers' mecca, but cabernet? No way.
我想提取如下内容:
Location: Malibu
Person: Knott
Organization: Berry Farm
如果它不是 HTML 规范的一部分,默认 parse
方法将不会处理自定义标记。
然而,您可以告诉 JSoup 将其解析为 XML:
Jsoup.parse(yourHtml, baseUriForLinks, Parser.xmlParser());
上面的命令将 return 一个 Document
,您可以在其中使用自定义标记进行操作。
其中:
yourHtml
- 自定义标记为 String
baseUriForLinks
- HTML 的基础 URL(以便 JSoup 可以解析相关链接,如果存在)也作为 String