Scrapy,python:无法使用 firebug 中的 xpath 提取数据
Scrapy, python: Unable to extract data using xpath seen in firebug
我对网页抓取、scrapy 和 python 还很陌生。我正在尝试从此 website page.
中抓取数据
我想提取页面页脚中给出的电子邮件 ID:info@bikramyogasg.com 并尝试使用两个 xpath 在 scrapy spider 中提取它:
- 亲戚:id("gkFooterNav")/div/p/span/a/text()
- 绝对值:/html/body/div[4]/div1/div/div/div/p/span/a/text()
我已经尝试了这些 xpaths,有和没有 'text()' 的最后一个组件。 None 其中有效,蜘蛛 returns 一个空列表。
但是,当我用 xpath 检查器检查这些时,我得到了正确的值。无法弄清楚这里出了什么问题。有人可以帮忙吗?
谢谢,
图希纳
如果您解析网站并查看内容,您会看到来自网站的消息:
This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
因此您需要执行 JavaScript 才能访问电子邮件地址。
或者,您可以从文本上方的 JavaScript 中提取电子邮件地址并进行相应的转换——甚至无需执行任何 JavaScript.
我对网页抓取、scrapy 和 python 还很陌生。我正在尝试从此 website page.
中抓取数据我想提取页面页脚中给出的电子邮件 ID:info@bikramyogasg.com 并尝试使用两个 xpath 在 scrapy spider 中提取它:
- 亲戚:id("gkFooterNav")/div/p/span/a/text()
- 绝对值:/html/body/div[4]/div1/div/div/div/p/span/a/text()
我已经尝试了这些 xpaths,有和没有 'text()' 的最后一个组件。 None 其中有效,蜘蛛 returns 一个空列表。
但是,当我用 xpath 检查器检查这些时,我得到了正确的值。无法弄清楚这里出了什么问题。有人可以帮忙吗?
谢谢, 图希纳
如果您解析网站并查看内容,您会看到来自网站的消息:
This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
因此您需要执行 JavaScript 才能访问电子邮件地址。 或者,您可以从文本上方的 JavaScript 中提取电子邮件地址并进行相应的转换——甚至无需执行任何 JavaScript.