JSSoup 是否支持提取文本?

Does JSSoup support extracting text?

是否JSSoup支持提取类似Beautiful Soup的文字soup.findAll(text=True)

文档没有提供关于这个用例的任何信息,但在我看来应该有办法。

澄清一下,我想要的是从页面中抓取所有可见文本。

beautiful soup 中,您可以使用 find_all(text=True) 以不同方式提取文本,但也可以使用 .get_text().text.

JSSoup 的工作方式类似于 beautiful soup - 要提取所有可见文本,只需在 soup 上调用 .get_text().textstring .

示例(jssoup)

var soup = new JSSoup('<html><head><body>text<p>ptext</p></body></head></html>');
soup.get_text('|')
// 'text|ptext'

soup.get_text('|').split('|')
// ['text','ptext']

例子(美汤)

from bs4 import BeautifulSoup
html = '''<html><head><body>text<p>ptext</p></body></head></html>'''

soup = BeautifulSoup(html, "html.parser") 
print(soup.get_text('|').split('|'))

输出

['text','ptext']