Scrapy 仅抓取 http header 数据
Scrapy crawl http header data only
(如何)我可以实现 scrapy 只下载网站的 header 数据(用于检查目的等)
我试过禁用一些 download-middlewares 但它似乎不起作用。
如@alexce 所说,您可以发出 HEAD Requests 而不是默认的 GET:
Request(url, method="HEAD")
更新:如果你想为你的 start_urls
使用 HEAD 请求,你将需要覆盖 make_requests_from_url 方法:
def make_requests_from_url(self, url):
return Request(url, method='HEAD', dont_filter=True)
(如何)我可以实现 scrapy 只下载网站的 header 数据(用于检查目的等)
我试过禁用一些 download-middlewares 但它似乎不起作用。
如@alexce 所说,您可以发出 HEAD Requests 而不是默认的 GET:
Request(url, method="HEAD")
更新:如果你想为你的 start_urls
使用 HEAD 请求,你将需要覆盖 make_requests_from_url 方法:
def make_requests_from_url(self, url):
return Request(url, method='HEAD', dont_filter=True)