从 HTML 页面中删除样板内容
Remove boilerplate content from HTML page
我想使用此处 https://github.com/miso-belica/jusText 的 jusText 实现从 html 页面中获取干净的内容。基本上它是这样工作的:
import requests
import justext
response = requests.get("http://planet.python.org/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
if not paragraph.is_boilerplate:
print paragraph.text
我已经下载了要使用此工具解析的页面(其中一些不再在线提供),并从中提取了 html 内容。由于 jusText 似乎只处理请求的输出(这是一个响应类型对象),我想知道是否有任何自定义方法来设置响应对象的内容以包含 html 文本我会喜欢解析。
response.content
属于 <type 'str'>
>>> from requests import get
>>> r = get("http://www.google.com/")
>>> type(r.content)
<type 'str'>
所以只要打电话:
justext.justext(my_html_string, justext.get_stoplist("English"))
我想使用此处 https://github.com/miso-belica/jusText 的 jusText 实现从 html 页面中获取干净的内容。基本上它是这样工作的:
import requests
import justext
response = requests.get("http://planet.python.org/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
if not paragraph.is_boilerplate:
print paragraph.text
我已经下载了要使用此工具解析的页面(其中一些不再在线提供),并从中提取了 html 内容。由于 jusText 似乎只处理请求的输出(这是一个响应类型对象),我想知道是否有任何自定义方法来设置响应对象的内容以包含 html 文本我会喜欢解析。
response.content
属于 <type 'str'>
>>> from requests import get
>>> r = get("http://www.google.com/")
>>> type(r.content)
<type 'str'>
所以只要打电话:
justext.justext(my_html_string, justext.get_stoplist("English"))