如何从 extract_first() 输出中删除 xpath？

Question

我是 Python 的新手，所以提前为任何白痴道歉。

我正在从网站抓取信息，并使用 .extract_first() 提取元素。

我想要的输出只是元素的文本，即 'Bob Smith'。但是，似乎 xpath 是围绕名称打印的：

相关代码：

sel = Selector(text=driver.page_source)
name = sel.xpath('//li[@class="inline t-24 t-black t-normal break-words"]').extract_first()
if name:
     name = name.strip() 
print(name)

输出：

'<li class="inline t-24 t-black t-normal break-words">\n            Bob Smith\n          </li>'

我尝试在网上寻找解决方案，但没有找到在 extract_first() 的上下文中处理此问题的解决方案。我如何摆脱 xpath 以便打印的输出只是元素文本？谢谢

Answer 1

尝试使用

name = sel.xpath('normalize-space(//li[@class="inline t-24 t-black t-normal break-words"])').extract_first()

你问题中 html 的输出：

Bob Smith

如何从 extract_first() 输出中删除 xpath？

How to remove xpath from extract_first() output?

python

xpath

strip