Jsoup:获取文本和 url
Jsoup: take text and url
我有这个 HTML 块:
<div class="singolo-contenuto link_azure">
<p>I'm a TEXTXXXXXXXXXXXXXXXX<p>
<a href="http://example.com">Name of URL</a></p></p>
<ul class="list_attachments"><li><a
href="DON'T TOUCH"><img src='/img/fileicons/file.png' alt='file'/> TITLE</a></li></ul>
</div>
<div class="clear"></div>
实际上我正在使用以下文本:
document.select(".singolo-contenuto").text();
对我来说returns:
"I'm a TEXTXXXXXXXXXXXXXXXX Name of URL"。无法获得 "I'm a TEXTXXXXXXXXXXXXXXXX http://example.com Name of URL" 吗?
在所有页面中并不总是相同的。
我只确定 text 和 href 将在 ""singolo-contenuto link_azure" class.
您可以根据需要将所有链接替换为文本,然后调用 .text()
伪代码:
for (Element elem : document.select(".singolo-contenuto a")) {
if(elem.parents().hasClass("list_attachments")) continue;
String href = elem.attr("href");
String text = elem.text();
elem.replaceWith(new TextNode(href + " " + text, ""));
}
String result = document.select(".singolo-contenuto").text();
我有这个 HTML 块:
<div class="singolo-contenuto link_azure">
<p>I'm a TEXTXXXXXXXXXXXXXXXX<p>
<a href="http://example.com">Name of URL</a></p></p>
<ul class="list_attachments"><li><a
href="DON'T TOUCH"><img src='/img/fileicons/file.png' alt='file'/> TITLE</a></li></ul>
</div>
<div class="clear"></div>
实际上我正在使用以下文本:
document.select(".singolo-contenuto").text();
对我来说returns: "I'm a TEXTXXXXXXXXXXXXXXXX Name of URL"。无法获得 "I'm a TEXTXXXXXXXXXXXXXXXX http://example.com Name of URL" 吗?
在所有页面中并不总是相同的。 我只确定 text 和 href 将在 ""singolo-contenuto link_azure" class.
您可以根据需要将所有链接替换为文本,然后调用 .text()
伪代码:
for (Element elem : document.select(".singolo-contenuto a")) {
if(elem.parents().hasClass("list_attachments")) continue;
String href = elem.attr("href");
String text = elem.text();
elem.replaceWith(new TextNode(href + " " + text, ""));
}
String result = document.select(".singolo-contenuto").text();