抓取网页时浏览多个链接

Question

我试图让我的网络抓取工具在实际抓取网站之前通过几个链接，但我似乎找不到如何让它工作。

我要抓取的网站是亚马逊。

假设我从 https://www.amazon.com/ 开始（那是我的 'start_url'）。到达那里后，我想在亚马逊搜索栏中搜索一些内容，例如 "Laptops" 并进行搜索。

如何做到这一点？如果我强制启动url，我可以提取数据（例如，用于搜索笔记本电脑的url：https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=Laptop）但从亚马逊主页开始时，我似乎无法获得 URL。

Answer 1

如果您有多个搜索请求，也许用另一种方式调用它们会更好：

search_url = 'https://www.amazon.com/s?field-keywords={}'

def start_requests(self):
    keywords = ['laptop', 'something other']
    for keyword in keywords:
        yield Request(self.search_url.format(keyword))

def parse(self, response) 
    # parse your pages here

抓取网页时浏览多个链接

Going through several links while scaping web pabe

scrapy

web-scraping

python-3.x

scrapy-spider