如何提取抓取图像的文件修改时间?
How to extract the file modification time of a scraped image?
我正在尝试抓取包含零件图像的零件网站的一部分,以收集一些统计信息。但是,没有 url 或图像上传或创建日期,所以我必须使用近似图像文件 modification-date 来获取此信息。使用 cURL,这是一项简单的任务:
curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"
不过,我认为在 scrapy 蜘蛛中获取它会更方便。但我不知道 scrapy 是否支持这个,因为我在文档中找不到它。
有没有办法在 scrapy 中获取抓取图像的 last-modified 日期?
根据 Scrapy 的文档,response
有一个 headers
字典字段。
因此您可以使用 response.headers.get('Last-Modified')
访问 last-modified
。
我正在尝试抓取包含零件图像的零件网站的一部分,以收集一些统计信息。但是,没有 url 或图像上传或创建日期,所以我必须使用近似图像文件 modification-date 来获取此信息。使用 cURL,这是一项简单的任务:
curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"
不过,我认为在 scrapy 蜘蛛中获取它会更方便。但我不知道 scrapy 是否支持这个,因为我在文档中找不到它。
有没有办法在 scrapy 中获取抓取图像的 last-modified 日期?
根据 Scrapy 的文档,response
有一个 headers
字典字段。
因此您可以使用 response.headers.get('Last-Modified')
访问 last-modified
。