如何使用 Scrapy 抓取根网站上的一堆链接?
How can I crawl a bunch of links on a root website using Scrapy?
我正在尝试抓取一个 covid-19 统计网站,该网站有一堆 link 到有关不同国家统计数据的页面。 link 都有一个 class 名称,可以使用 css 选择器 ('mt_a') 轻松访问它们。国家之间没有连续性,所以如果您在其中一个国家的网页上,就没有 link 去下一个国家。我是一个完整的 scrapy 初学者,如果我的目标是抓取根页面上列出的所有 (200 ish) links 以获取相同的几条信息,我不确定我应该怎么做。任何关于我应该尝试做什么的指导都将不胜感激。
我正在尝试抓取的link:https://www.worldometers.info/coronavirus/
(向下滚动查看国家/地区 links)
我要做的是创建两个蜘蛛。一种方法是解析主页并提取锚标记内指向国家/地区页面 href 的所有特定链接,即 href="country/us/"
,然后从这些相关链接创建完整的 urls,以便您获得正确的 url像 https://www.worldometers.info/coronavirus/country/us/
.
然后第二个蜘蛛得到所有国家 url 的列表,然后继续抓取所有单独的页面并从中提取信息。
例如,您从第一个蜘蛛获得 url 的列表:
urls = ['https://www.worldometers.info/coronavirus/country/us/',
'https://www.worldometers.info/coronavirus/country/russia/']
然后在第二个蜘蛛中将该列表提供给 start_urls
属性。
我认为其他人已经回答了这个问题,但这是 Link extractors 的页面。
我正在尝试抓取一个 covid-19 统计网站,该网站有一堆 link 到有关不同国家统计数据的页面。 link 都有一个 class 名称,可以使用 css 选择器 ('mt_a') 轻松访问它们。国家之间没有连续性,所以如果您在其中一个国家的网页上,就没有 link 去下一个国家。我是一个完整的 scrapy 初学者,如果我的目标是抓取根页面上列出的所有 (200 ish) links 以获取相同的几条信息,我不确定我应该怎么做。任何关于我应该尝试做什么的指导都将不胜感激。
我正在尝试抓取的link:https://www.worldometers.info/coronavirus/ (向下滚动查看国家/地区 links)
我要做的是创建两个蜘蛛。一种方法是解析主页并提取锚标记内指向国家/地区页面 href 的所有特定链接,即 href="country/us/"
,然后从这些相关链接创建完整的 urls,以便您获得正确的 url像 https://www.worldometers.info/coronavirus/country/us/
.
然后第二个蜘蛛得到所有国家 url 的列表,然后继续抓取所有单独的页面并从中提取信息。
例如,您从第一个蜘蛛获得 url 的列表:
urls = ['https://www.worldometers.info/coronavirus/country/us/',
'https://www.worldometers.info/coronavirus/country/russia/']
然后在第二个蜘蛛中将该列表提供给 start_urls
属性。
我认为其他人已经回答了这个问题,但这是 Link extractors 的页面。