Scrapy:检查网页中的网络资源
Scrapy : inspect network resources in a web page
我才刚刚开始探索 scrappy 框架。
我一直在阅读 scrapy,用于从页面内容 中提取 urls/images 等 并进行抓取。
我的问题是,有没有办法像PhantomJS does print all the network resources in a webpage一样extract/print加载网页中的所有网络资源而不从页面的html内容中提取,而是直接来自资源 requested/completed 本身时的网络资源。
谢谢
Scrapy 不渲染网页。
Scrapy 只是从网络服务器获取网页的 html 代码。
所以当Scrapy抓取一个网页时,蜘蛛只访问服务器一次,并不会请求资源,比如图像和javascript文件。
我才刚刚开始探索 scrappy 框架。
我一直在阅读 scrapy,用于从页面内容 中提取 urls/images 等 并进行抓取。
我的问题是,有没有办法像PhantomJS does print all the network resources in a webpage一样extract/print加载网页中的所有网络资源而不从页面的html内容中提取,而是直接来自资源 requested/completed 本身时的网络资源。
谢谢
Scrapy 不渲染网页。
Scrapy 只是从网络服务器获取网页的 html 代码。
所以当Scrapy抓取一个网页时,蜘蛛只访问服务器一次,并不会请求资源,比如图像和javascript文件。