请求被新段落停止
Requests stopped by new paragraph
我在从网站抓取数据时遇到以下问题,得到 returned 的文本被
截断
<p> blabla </p>
在源代码中。
我如何获得对 return 我之前和其中的文本的请求?
代码:
from lxml import html
import requests
page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)
#Mitglieder
members = tree.xpath('//div[@class="details"]/text()')
print 'Mitglieder: ', members
示例:
在 HTML:
<div class="details">Altherr Hans<br /><br />
Kanton Appenzell A.-Rh.<p>FDP-Liberale Fraktion (RL)<br />
FDP.Die Liberalen (FDP-Liberale) </p>
我从上面的代码中得到了什么:
'Altherr Hans', '\r\n
Kanton Appenzell A.-Rh.',
您不需要在 xpath 中添加 /text。 tree.xpath 将生成一个包含 html 个元素的列表。迭代它并获取文本内容将创建所需的结果。
from lxml import html
import requests
page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)
#Mitglieder
members = tree.xpath('//div[@class="details"]')
for i in members:
print i.text_content()
我在从网站抓取数据时遇到以下问题,得到 returned 的文本被
截断 <p> blabla </p>
在源代码中。 我如何获得对 return 我之前和其中的文本的请求?
代码:
from lxml import html
import requests
page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)
#Mitglieder
members = tree.xpath('//div[@class="details"]/text()')
print 'Mitglieder: ', members
示例: 在 HTML:
<div class="details">Altherr Hans<br /><br />
Kanton Appenzell A.-Rh.<p>FDP-Liberale Fraktion (RL)<br />
FDP.Die Liberalen (FDP-Liberale) </p>
我从上面的代码中得到了什么:
'Altherr Hans', '\r\n
Kanton Appenzell A.-Rh.',
您不需要在 xpath 中添加 /text。 tree.xpath 将生成一个包含 html 个元素的列表。迭代它并获取文本内容将创建所需的结果。
from lxml import html
import requests
page = requests.get('http://sitetoscrape.com')
tree = html.fromstring(page.text)
#Mitglieder
members = tree.xpath('//div[@class="details"]')
for i in members:
print i.text_content()