使用 Jsoup 获取 <div> 之后和 <h2> 之间的所有 <p> 文本

Question

<h2><span class="mw-headline" id="The_battle">The battle</span></h2>
<div class="thumb tright"></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2>Second Title I want to stop collecting p tags after</h2>

我正在通过尝试废弃所有 p 标签来学习 Jsoup，这些标签按维基百科网站的标题排列。在这个问题的帮助下，我可以废弃 h2 之间的所有 p 标签：

通过使用

Elements elements = docx.select("span.mw-headline, h2 ~ p");

但当它们之间有 <div> 时，我无法将其废弃。这是我正在处理的维基百科网站： https://simple.wikipedia.org/wiki/Battle_of_Hastings

如何获取位于两个特定 h2 标签之间的所有 p 标签？最好按id排序。

Answer 1

试试这个选项：元素元素 = doc.select("span.mw-headline, h2 ~ div, h2 ~ p");

示例代码：

package jsoupex;

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Example program to list links from a URL.
 */
public class stackoverflw {
    public static void main(String[] args) throws IOException {

        //Validate.isTrue(args.length == 1, "usage: supply url to fetch");
        //String url = "http://localhost/stov_wiki.html";
        String url = "https://simple.wikipedia.org/wiki/Battle_of_Hastings ";
        //args[0];
        System.out.println("Fetching %s..." + url);

        Document doc = Jsoup.connect(url).get();
        Elements elements = doc.select("span.mw-headline, h2 ~ div, h2 ~ p");

        for (Element elem : elements) {
            if ( elem.hasClass("mw-headline")) {
                System.out.println("************************");
            }
            System.out.println(elem.text());
            if ( elem.hasClass("mw-headline")) {
                System.out.println("************************");
            } else {
                System.out.println("");
            }           
        }
    }
}

Answer 2

public static void main(String[] args) {
    String entity =
            "<h2><span class=\"mw-headline\" id=\"The_battle\">The battle</span></h2>" +
            "<div class=\"thumb tright\"></h2>" +
            "<p>text I want</p>" +
            "<p>text I want</p>" +
            "<p>text I want</p>" +
            "<p>text I want</p>" +
            "<h2>Second Title I want to stop collecting p tags after</h2>";

    Document element = org.jsoup.Jsoup.parse(entity,"", Parser.xmlParser());
    element.outputSettings().prettyPrint(false);
    element.outputSettings().outline(false);
    List<TextNode>text=getAllTextNodes(element);
}

private static List<TextNode> getAllTextNodes(Element newElementValue) {
    List<TextNode>textNodes = new ArrayList<>();
    Elements elements = newElementValue.getAllElements();
    for (Element e : elements){
        for (TextNode t : e.textNodes()){
            textNodes.add(t);
           
        }
    }
    return textNodes;
}

使用 Jsoup 获取 <div> 之后和 <h2> 之间的所有 <p> 文本

Get all <p> texts after <div> and between <h2> by using Jsoup

html

java

wikipedia

web-scraping

jsoup