Scrapy

Question

我正在使用媒体管道将各种文件下载到磁盘，但它似乎阻止了以前下载的文件（具有相同的 url）的下载。我不希望它这样做，我希望下载重复的图像（它们是用不同的文件名编写的）。有什么方法可以覆盖此行为并允许媒体管道处理相同的 url？

（使用 scrapy 0.24）

Answer 1

我查看了媒体管道中使用的类，似乎任何媒体请求的指纹都可以避免下载重复项。

在 scrapy/scrapy/utils/request.py 中，request_fingerprint 方法描述了创建请求的 sha1 散列，包括请求 headers.

等数据

为了允许重复请求，我在 header 值中包含了该项目的唯一数据（以生成唯一的指纹），如下所示：

def get_media_requests(self, item, info):
    if isinstance(item, ExampleMedia):
        request = Request("http://example.com/medialibrary/"+str(item['mediaID']))
        request.meta['item'] = item
        request.headers['fpBuster']=item['uniqueID']
        yield request

我希望这对寻找下载媒体重复请求方法的其他人有所帮助。如果有一种方法可以做到这一点而无需像这样使用 header 就好了，因为我想，意外的 header 可能会混淆目标站点。如果有人有更好的解决方案请告诉我。

Scrapy - 允许媒体管道下载已经下载的 url

Scrapy - allow media pipeline to download already downloaded urls

python

web-scraping