如何将jsoup文档保存为文本文件
How to save a jsoup document as text file
我试图将网页上的所有可读单词保存到一个文本文档中,同时忽略 html 标记。
使用 JSoup 来解析网页上的所有单词,我唯一的猜测是如何从代码中分离出真正的单词是通过元素。
是否可以将jsoup文档的多个元素转换成一个文本文件?
即:
Elements titles = doc.select("title");
Elements paragraphs = doc.select("p");
Elements links = doc.select("a[href]");
Elements smallText = doc.select("a");
当前正在将解析保存为文档:
Document doc = Jsoup.connect("https:// (enter a url)").get();
方法很简单
Document doc = Jsoup.connect("https:// (enter a url)").get();
BufferedWriter writer = null;
try
{
writer = new BufferedWriter( new FileWriter("d://test.txt"));
writer.write(doc.toString());
}
catch ( IOException e)
{
}
添加答案,因为我无法在上面发表评论。
将上面代码中的writer.write(doc.toString());
替换为writer.write(doc.select("html").text());
。
它会给你页面上的文字。
代替 doc.select("**html**").text()
中的 "html"
,可以使用其他标签来提取包含在这些标签中的文本。
编辑:您也可以使用 writer.write(doc.body().text());
在文本中写入 writer.write(doc.text());
后,您需要在下一行中写入 writer.close();
这将解决问题。
我试图将网页上的所有可读单词保存到一个文本文档中,同时忽略 html 标记。 使用 JSoup 来解析网页上的所有单词,我唯一的猜测是如何从代码中分离出真正的单词是通过元素。
是否可以将jsoup文档的多个元素转换成一个文本文件?
即:
Elements titles = doc.select("title");
Elements paragraphs = doc.select("p");
Elements links = doc.select("a[href]");
Elements smallText = doc.select("a");
当前正在将解析保存为文档:
Document doc = Jsoup.connect("https:// (enter a url)").get();
方法很简单
Document doc = Jsoup.connect("https:// (enter a url)").get();
BufferedWriter writer = null;
try
{
writer = new BufferedWriter( new FileWriter("d://test.txt"));
writer.write(doc.toString());
}
catch ( IOException e)
{
}
添加答案,因为我无法在上面发表评论。
将上面代码中的writer.write(doc.toString());
替换为writer.write(doc.select("html").text());
。
它会给你页面上的文字。
代替 doc.select("**html**").text()
中的 "html"
,可以使用其他标签来提取包含在这些标签中的文本。
编辑:您也可以使用 writer.write(doc.body().text());
在文本中写入 writer.write(doc.text());
后,您需要在下一行中写入 writer.close();
这将解决问题。