如何将jsoup文档保存为文本文件

How to save a jsoup document as text file

我试图将网页上的所有可读单词保存到一个文本文档中,同时忽略 html 标记。 使用 JSoup 来解析网页上的所有单词,我唯一的猜测是如何从代码中分离出真正的单词是通过元素。

是否可以将jsoup文档的多个元素转换成一个文本文件?

即:

        Elements titles = doc.select("title");
        Elements paragraphs = doc.select("p");
        Elements links = doc.select("a[href]"); 
        Elements smallText = doc.select("a");

当前正在将解析保存为文档:

 Document doc = Jsoup.connect("https:// (enter a url)").get();

方法很简单

Document doc = Jsoup.connect("https:// (enter a url)").get();
        BufferedWriter  writer = null;
        try
        {
            writer = new BufferedWriter( new FileWriter("d://test.txt"));
            writer.write(doc.toString());

        }
        catch ( IOException e)
        {
        }

添加答案,因为我无法在上面发表评论。

将上面代码中的writer.write(doc.toString());替换为writer.write(doc.select("html").text());

它会给你页面上的文字。

代替 doc.select("**html**").text() 中的 "html",可以使用其他标签来提取包含在这些标签中的文本。

编辑:您也可以使用 writer.write(doc.body().text());

在文本中写入 writer.write(doc.text()); 后,您需要在下一行中写入 writer.close(); 这将解决问题。