如何使用 Scrapy 抓取根网站上的一堆链接?

How can I crawl a bunch of links on a root website using Scrapy?

我正在尝试抓取一个 covid-19 统计网站,该网站有一堆 link 到有关不同国家统计数据的页面。 link 都有一个 class 名称,可以使用 css 选择器 ('mt_a') 轻松访问它们。国家之间没有连续性,所以如果您在其中一个国家的网页上,就没有 link 去下一个国家。我是一个完整的 scrapy 初学者,如果我的目标是抓取根页面上列出的所有 (200 ish) links 以获取相同的几条信息,我不确定我应该怎么做。任何关于我应该尝试做什么的指导都将不胜感激。

我正在尝试抓取的link:https://www.worldometers.info/coronavirus/ (向下滚动查看国家/地区 links)

我要做的是创建两个蜘蛛。一种方法是解析主页并提取锚标记内指向国家/地区页面 href 的所有特定链接,即 href="country/us/",然后从这些相关链接创建完整的 urls,以便您获得正确的 url像 https://www.worldometers.info/coronavirus/country/us/.

然后第二个蜘蛛得到所有国家 url 的列表,然后继续抓取所有单独的页面并从中提取信息。

例如,您从第一个蜘蛛获得 url 的列表:

urls = ['https://www.worldometers.info/coronavirus/country/us/',
'https://www.worldometers.info/coronavirus/country/russia/']

然后在第二个蜘蛛中将该列表提供给 start_urls 属性。

我认为其他人已经回答了这个问题,但这是 Link extractors 的页面。