不要在 scrapy 中加载图像、css 或主题和脚本

Don't load images, css or themes, and scripts in scrapy

我需要阻止从网页加载图像、css 文件、主题和脚本。在使用 scrapy

的基本抓取中

有什么方法可以阻止他们 setting.py 或其他人?

导入 scrapy

class MySpyder(scrapy.Spider):
    name = 'Spiderr'
    start_urls = [l.strip() for l in open("Archive").readlines()]

    def parse(self,response):
        tittle = response.xpath("/html/body/").get('').strip()
        url = response.url
        yield {
            'tittle': tittle,
            'URL': url,
        }

我想这样会让网站少受点影响

Scrapy 仅在响应中使用源代码

您可以使用 response.text

检查

JS渲染就是你说的scrapy不适用

如果你想减少对服务器的访问,你需要从 settings.py

添加 time delaydecrease concurrent requests