Scrapy 不会爬过网站

Question

我有一个共同的陷阱，无法摆脱它：我的Scrapy蜘蛛很懒，所以它只能解析start_urls。代码如下：

import scrapy

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Field
from scrapy.selector import Selector

class HabraPostSpider(scrapy.Spider):
    name = 'habrapost'
    allowed_domains = ['habrahabr.ru']
    start_urls = ['https://habrahabr.ru/interesting/']


    def parse(self, response):
        self.logger.info('A response from %s just arrived!', response.url)


    rules = (Rule(LinkExtractor()),
            Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True))

如果有人能告诉我如何修复我的蜘蛛，我将非常高兴！

Answer 1

您的英语完全不通，但从字里行间看，我的理解是您希望爬虫进入它看到的每一个 link。

为此你必须使用 CrawlSpider 而不是 Spider

class HabraPostSpider(scrapy.spiders.CrawlSpider)

检查the documentation。

Scrapy 不会爬过网站

Scrapy don't crawl over site

scrapy

scrapy-spider