需要收集完整的 HTML 段落文本，但 <br /> 限制了结果

Question

我正在使用 lxml 从博客网站上抓取评论。

我找到了我想要收集的段落，但返回的结果被截断为第一个实例之前的文本：

<br />

这是 html...

的片段

                                    <p>Great Post.<br />
Really Helpful for us.<br />
thank you</p>

这是我指向目标段落的路径：

root[1][2][0][0][0][6][0][0][0][1][3].text

返回的是：

>>> 'Great Post.'

我有什么想法可以从这一段中获得全文吗？

Answer 1

首先，您应该使用 lxml.html 来解析 HTML（而不是 lxml.etree）。然后，一旦找到元素，使用 .text_content() 方法获取包含子文本的元素的完整 "text"。

Need to collect full HTML paragraph text but <br /> limits results