需要收集完整的 HTML 段落文本,但 <br /> 限制了结果
Need to collect full HTML paragraph text but <br /> limits results
我正在使用 lxml 从博客网站上抓取评论。
我找到了我想要收集的段落,但返回的结果被截断为第一个实例之前的文本:
<br />
这是 html...
的片段
<p>Great Post.<br />
Really Helpful for us.<br />
thank you</p>
这是我指向目标段落的路径:
root[1][2][0][0][0][6][0][0][0][1][3].text
返回的是:
>>> 'Great Post.'
我有什么想法可以从这一段中获得全文吗?
首先,您应该使用 lxml.html
来解析 HTML(而不是 lxml.etree
)。然后,一旦找到元素,使用 .text_content()
方法获取包含子文本的元素的完整 "text"。
我正在使用 lxml 从博客网站上抓取评论。
我找到了我想要收集的段落,但返回的结果被截断为第一个实例之前的文本:
<br />
这是 html...
的片段 <p>Great Post.<br />
Really Helpful for us.<br />
thank you</p>
这是我指向目标段落的路径:
root[1][2][0][0][0][6][0][0][0][1][3].text
返回的是:
>>> 'Great Post.'
我有什么想法可以从这一段中获得全文吗?
首先,您应该使用 lxml.html
来解析 HTML(而不是 lxml.etree
)。然后,一旦找到元素,使用 .text_content()
方法获取包含子文本的元素的完整 "text"。