当根页面上没有 link 分页时,Scrapy Crawler 不工作
Scrapy Crawler does not working when there is no link pagination on root page
我的 scrapy 爬虫始终无法正常工作。
我从网上商店中删除了一些类别,其中每个类别页面内都包含分页,但有时它不包含 link 分页,因为只有一页
只有当 link 分页在我 select 编辑的页面内时,我的规则才有效,但我不知道如何在类别的根页面是唯一的页面时使它起作用。
这是我的规则。
rules = [
Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)
知道如何让它也抓取不包含我目标的分页 link 的页面。
注:
我使用由 mysqlDB 填充的开始 url 启动爬网蜘蛛,例如,arg table 用于 select 我的 link table 使用开始 url 的地方。
scrapy crawl mg_bot_crawler -a table=mini_four
感谢您的帮助
只需将回调更改为 parse_start_url 并覆盖它,请参阅此答案 Scrapy CrawlSpider doesn't crawl the first landing page
我的 scrapy 爬虫始终无法正常工作。
我从网上商店中删除了一些类别,其中每个类别页面内都包含分页,但有时它不包含 link 分页,因为只有一页
只有当 link 分页在我 select 编辑的页面内时,我的规则才有效,但我不知道如何在类别的根页面是唯一的页面时使它起作用。
这是我的规则。
rules = [
Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)
知道如何让它也抓取不包含我目标的分页 link 的页面。
注:
我使用由 mysqlDB 填充的开始 url 启动爬网蜘蛛,例如,arg table 用于 select 我的 link table 使用开始 url 的地方。
scrapy crawl mg_bot_crawler -a table=mini_four
感谢您的帮助
只需将回调更改为 parse_start_url 并覆盖它,请参阅此答案 Scrapy CrawlSpider doesn't crawl the first landing page