抓取网页时浏览多个链接
Going through several links while scaping web pabe
我试图让我的网络抓取工具在实际抓取网站之前通过几个链接,但我似乎找不到如何让它工作。
我要抓取的网站是亚马逊。
假设我从 https://www.amazon.com/ 开始(那是我的 'start_url')。
到达那里后,我想在亚马逊搜索栏中搜索一些内容,例如 "Laptops" 并进行搜索。
如何做到这一点?如果我强制启动url,我可以提取数据(例如,用于搜索笔记本电脑的url:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=Laptop)
但从亚马逊主页开始时,我似乎无法获得 URL。
如果您有多个搜索请求,也许用另一种方式调用它们会更好:
search_url = 'https://www.amazon.com/s?field-keywords={}'
def start_requests(self):
keywords = ['laptop', 'something other']
for keyword in keywords:
yield Request(self.search_url.format(keyword))
def parse(self, response)
# parse your pages here
我试图让我的网络抓取工具在实际抓取网站之前通过几个链接,但我似乎找不到如何让它工作。
我要抓取的网站是亚马逊。
假设我从 https://www.amazon.com/ 开始(那是我的 'start_url')。 到达那里后,我想在亚马逊搜索栏中搜索一些内容,例如 "Laptops" 并进行搜索。
如何做到这一点?如果我强制启动url,我可以提取数据(例如,用于搜索笔记本电脑的url:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=Laptop) 但从亚马逊主页开始时,我似乎无法获得 URL。
如果您有多个搜索请求,也许用另一种方式调用它们会更好:
search_url = 'https://www.amazon.com/s?field-keywords={}'
def start_requests(self):
keywords = ['laptop', 'something other']
for keyword in keywords:
yield Request(self.search_url.format(keyword))
def parse(self, response)
# parse your pages here