不要在 scrapy 中加载图像、css 或主题和脚本
Don't load images, css or themes, and scripts in scrapy
我需要阻止从网页加载图像、css 文件、主题和脚本。在使用 scrapy
的基本抓取中
有什么方法可以阻止他们 setting.py 或其他人?
导入 scrapy
class MySpyder(scrapy.Spider):
name = 'Spiderr'
start_urls = [l.strip() for l in open("Archive").readlines()]
def parse(self,response):
tittle = response.xpath("/html/body/").get('').strip()
url = response.url
yield {
'tittle': tittle,
'URL': url,
}
我想这样会让网站少受点影响
Scrapy 仅在响应中使用源代码
您可以使用 response.text
检查
JS渲染就是你说的scrapy不适用
如果你想减少对服务器的访问,你需要从 settings.py
添加 time delay
和 decrease concurrent requests
我需要阻止从网页加载图像、css 文件、主题和脚本。在使用 scrapy
的基本抓取中有什么方法可以阻止他们 setting.py 或其他人?
导入 scrapy
class MySpyder(scrapy.Spider):
name = 'Spiderr'
start_urls = [l.strip() for l in open("Archive").readlines()]
def parse(self,response):
tittle = response.xpath("/html/body/").get('').strip()
url = response.url
yield {
'tittle': tittle,
'URL': url,
}
我想这样会让网站少受点影响
Scrapy 仅在响应中使用源代码
您可以使用 response.text
JS渲染就是你说的scrapy不适用
如果你想减少对服务器的访问,你需要从 settings.py
time delay
和 decrease concurrent requests