从支持门户网站抓取 JSOUP Web

JSOUP Web scraping from support portal

我是 jSoup 的新手,现在我正在尝试从这个门户网站抓取网页。

https://supportforums.cisco.com/t5/lan-switching-and-routing/bd-p/6016-discussions-lan-switching-routing

在这个门户上,我想从这个列表中接收信息,它会显示已解决的问题,我的意思是具有解决问题的特殊形象的主题。

Solved task must look in such way

我以这种方式创建了到此页面的连接并检查了此页面的标题以确保我在正确的位置。

        document = Jsoup.connect("https://supportforums.cisco.com/t5/lan-switching-and-routing/bd-p/6016-discussions-lan-switching-routing").get();
        String title = document.title();
        print("Title: " + title);

之后我开始研究 HTML 方面,我明白这个主题必须是列表中的元素 div class messageList.MessageList.lia-component-forums-widget-message-list.lia-forum-message-list.lia-component-message-list 但我不是确定它。 然后我发现每个主题都包含唯一的 id,我一直坚持下去。

你能帮我如何接收所有这些元素,主题吗?以及如何在所有这些主题中过滤已解决的主题?一开始,我只是想在 Java.

中使用 Console 输出这些主题的标题

对不起,如果我问了一个愚蠢的问题。

已解决的题目用 class lia-list-row-thread-solved 的行表示。主线程列表位于 ID 为 grid 的元素中。

        Document doc = Jsoup.connect(
                "https://supportforums.cisco.com/t5/lan-switching-and-routing/bd-p/6016-discussions-lan-switching-routing")
                .get();
        for (Element e : doc.select("#grid tr.lia-list-row-thread-solved")) {
            String text = e.text();
            System.out.println(text);
        }