如何检索所有图像、js、css url

How to retrieve all the images, js, css urls

我浏览了我能找到的所有 scrapy 示例和教程，但找不到可以获取图像的所有 url、css 和正在发送的 js 文件的示例从服务器。

有没有办法用 scrapy 做到这一点？如果不是用 scrapy，那么有没有办法用别的东西来做？

我基本上想浏览我的网站并获取所有 urls/resources 并将它们输出到日志文件。

您可以使用 link extractor (more specifically, I've found the LxmlParserLinkExtractor 来更好地处理这种事情），像这样自定义元素和属性：

from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor

tags = ['img', 'embed', 'link', 'script']
attrs = ['src', 'href']
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs)
resource_urls = [l.url for l in extractor.extract_links(response)]