JSSoup 是否支持提取文本？

Question

是否JSSoup支持提取类似Beautiful Soup的文字soup.findAll(text=True)？

文档没有提供关于这个用例的任何信息，但在我看来应该有办法。

澄清一下，我想要的是从页面中抓取所有可见文本。

Answer 1

在 beautiful soup 中，您可以使用 find_all(text=True) 以不同方式提取文本，但也可以使用 .get_text() 或 .text.

JSSoup 的工作方式类似于 beautiful soup - 要提取所有可见文本，只需在 soup 上调用 .get_text()、.text 或 string .

示例（jssoup）

var soup = new JSSoup('<html><head><body>text<p>ptext</p></body></head></html>');
soup.get_text('|')
// 'text|ptext'

soup.get_text('|').split('|')
// ['text','ptext']

例子（美汤）

from bs4 import BeautifulSoup
html = '''<html><head><body>text<p>ptext</p></body></head></html>'''

soup = BeautifulSoup(html, "html.parser") 
print(soup.get_text('|').split('|'))

输出

['text','ptext']

JSSoup 是否支持提取文本？

Does JSSoup support extracting text?

beautifulsoup

jssoup

示例（jssoup）

例子（美汤）

输出