Scrapy 不会爬过网站
Scrapy don't crawl over site
我有一个共同的陷阱,无法摆脱它:我的Scrapy蜘蛛很懒,所以它只能解析start_urls。代码如下:
import scrapy
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Field
from scrapy.selector import Selector
class HabraPostSpider(scrapy.Spider):
name = 'habrapost'
allowed_domains = ['habrahabr.ru']
start_urls = ['https://habrahabr.ru/interesting/']
def parse(self, response):
self.logger.info('A response from %s just arrived!', response.url)
rules = (Rule(LinkExtractor()),
Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True))
如果有人能告诉我如何修复我的蜘蛛,我将非常高兴!
您的英语完全不通,但从字里行间看,我的理解是您希望爬虫进入它看到的每一个 link。
为此你必须使用 CrawlSpider
而不是 Spider
class HabraPostSpider(scrapy.spiders.CrawlSpider)
我有一个共同的陷阱,无法摆脱它:我的Scrapy蜘蛛很懒,所以它只能解析start_urls。代码如下:
import scrapy
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Field
from scrapy.selector import Selector
class HabraPostSpider(scrapy.Spider):
name = 'habrapost'
allowed_domains = ['habrahabr.ru']
start_urls = ['https://habrahabr.ru/interesting/']
def parse(self, response):
self.logger.info('A response from %s just arrived!', response.url)
rules = (Rule(LinkExtractor()),
Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True))
如果有人能告诉我如何修复我的蜘蛛,我将非常高兴!
您的英语完全不通,但从字里行间看,我的理解是您希望爬虫进入它看到的每一个 link。
为此你必须使用 CrawlSpider
而不是 Spider
class HabraPostSpider(scrapy.spiders.CrawlSpider)