使用 Jsoup 解析文本时如何获取要点?
How to get bullet points when parsing text with Jsoup?
我正在使用 Jsoup 从 html 文档中获取文本并将其显示在我的 android 应用程序中。
文本包含一个列表 (
- )。
如果我这样做,我只会得到文本:
val doc = Jsoup.parse(someHtml)
return doc.text()
我尝试使用 wholeText:
val doc = Jsoup.parse(removeImages)
return doc.wholeText()
这样它保留了一些格式,但仍然忽略了要点。有什么办法可以得到文中的要点吗?
项目符号由浏览器呈现,因此它们不是文本的一部分。
你必须自己添加它,就像这个例子:
String html = "<html>" +
"<head>" +
"<title>List</title>" +
"</head>" +
"<body>" +
"<ul>" +
"<li>Item 1</li>" +
"<li>Item 2</li>" +
"<li>Item 3</li>" +
"</ul> " +
"</body>" +
"</html>";
Document doc = Jsoup.parse(html);
Element list = doc.select("ul").first();
Elements item = list.children();
for (Element e : item) {
System.out.println("\u2022" + e.text());
}
输出为:
•项目 1
•项目2
•项目 3
您可以将项目符号替换为您喜欢的任何其他字符,方法是将 \u2022
代码替换为任何其他有效的 code/character.
我正在使用 Jsoup 从 html 文档中获取文本并将其显示在我的 android 应用程序中。
文本包含一个列表 (
- )。
如果我这样做,我只会得到文本:
val doc = Jsoup.parse(someHtml) return doc.text()
我尝试使用 wholeText:
val doc = Jsoup.parse(removeImages) return doc.wholeText()
这样它保留了一些格式,但仍然忽略了要点。有什么办法可以得到文中的要点吗?
项目符号由浏览器呈现,因此它们不是文本的一部分。
你必须自己添加它,就像这个例子:
String html = "<html>" +
"<head>" +
"<title>List</title>" +
"</head>" +
"<body>" +
"<ul>" +
"<li>Item 1</li>" +
"<li>Item 2</li>" +
"<li>Item 3</li>" +
"</ul> " +
"</body>" +
"</html>";
Document doc = Jsoup.parse(html);
Element list = doc.select("ul").first();
Elements item = list.children();
for (Element e : item) {
System.out.println("\u2022" + e.text());
}
输出为:
•项目 1
•项目2
•项目 3
您可以将项目符号替换为您喜欢的任何其他字符,方法是将 \u2022
代码替换为任何其他有效的 code/character.