Jsoup-迭代元素获取唯一文本内容

Jsoup- Iterate element to get the unique text content

希望你能帮助我:-)

我想从 html 页面中提取文本内容。 我使用了 jsoup 库,但是 html 页面有问题

<div>
<p>paragraph
</p></div>
<div>
division content
</div>

当提取段落内容时,我得到 'paragraph' 作为输出,当提取 div 内容时,我得到 'paragraph division content'

我需要一个唯一的文本作为结果——一旦我获取

内容作为 'paragraph' 然后获取内容将不包括

内容

怎么办?

这是我的代码

Elements page_content=doc.select("p");
Elements div_content=doc.select("div");
String Content=page_content.text()+" "+div_content.text();

试试这个代码:

Elements page_content=doc.select("p");
Elements div_content=doc.select("div:nth-child(2)");
String Content=page_content.text()+" "+div_content.text();