JSSoup 是否支持提取文本?
Does JSSoup support extracting text?
是否JSSoup支持提取类似Beautiful Soup的文字soup.findAll(text=True)
?
文档没有提供关于这个用例的任何信息,但在我看来应该有办法。
澄清一下,我想要的是从页面中抓取所有可见文本。
在 beautiful soup
中,您可以使用 find_all(text=True)
以不同方式提取文本,但也可以使用 .get_text()
或 .text
.
JSSoup
的工作方式类似于 beautiful soup
- 要提取所有可见文本,只需在 soup
上调用 .get_text()
、.text
或 string
.
示例(jssoup)
var soup = new JSSoup('<html><head><body>text<p>ptext</p></body></head></html>');
soup.get_text('|')
// 'text|ptext'
soup.get_text('|').split('|')
// ['text','ptext']
例子(美汤)
from bs4 import BeautifulSoup
html = '''<html><head><body>text<p>ptext</p></body></head></html>'''
soup = BeautifulSoup(html, "html.parser")
print(soup.get_text('|').split('|'))
输出
['text','ptext']
是否JSSoup支持提取类似Beautiful Soup的文字soup.findAll(text=True)
?
文档没有提供关于这个用例的任何信息,但在我看来应该有办法。
澄清一下,我想要的是从页面中抓取所有可见文本。
在 beautiful soup
中,您可以使用 find_all(text=True)
以不同方式提取文本,但也可以使用 .get_text()
或 .text
.
JSSoup
的工作方式类似于 beautiful soup
- 要提取所有可见文本,只需在 soup
上调用 .get_text()
、.text
或 string
.
示例(jssoup)
var soup = new JSSoup('<html><head><body>text<p>ptext</p></body></head></html>');
soup.get_text('|')
// 'text|ptext'
soup.get_text('|').split('|')
// ['text','ptext']
例子(美汤)
from bs4 import BeautifulSoup
html = '''<html><head><body>text<p>ptext</p></body></head></html>'''
soup = BeautifulSoup(html, "html.parser")
print(soup.get_text('|').split('|'))
输出
['text','ptext']