需要收集完整的 HTML 段落文本,但 <br /> 限制了结果

Need to collect full HTML paragraph text but <br /> limits results

我正在使用 lxml 从博客网站上抓取评论。

我找到了我想要收集的段落,但返回的结果被截断为第一个实例之前的文本:

<br />

这是 html...

的片段
                                    <p>Great Post.<br />
Really Helpful for us.<br />
thank you</p> 

这是我指向目标段落的路径:

root[1][2][0][0][0][6][0][0][0][1][3].text

返回的是:

>>> 'Great Post.'

我有什么想法可以从这一段中获得全文吗?

首先,您应该使用 lxml.html 来解析 HTML(而不是 lxml.etree)。然后,一旦找到元素,使用 .text_content() 方法获取包含子文本的元素的完整 "text"。