CrawlSpider 不跟踪链接
CrawlSpider not following links
标题说明了一切,我正在尝试让 CrawlSpider 适用于亚马逊的某些产品,但无济于事。
Here 是我想从中获取产品的原始 URL 页面。
查看下一个 link 所在的 HTML 代码,如下所示:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>
这是我当前使用的正则表达式:
s/ref=sr_pg_[0-9]\?[^">]+
并且使用像 Pythex.org 这样的服务,这似乎没问题,我得到了 URL 的这一部分:
s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650
这是我的爬虫代码:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from amazon.items import AmazonProduct
class AmazonCrawlerSpider(CrawlSpider):
name = 'amazon_crawler'
allowed_domains = ['amazon.com']
#allowed_domains = ['whosebug.com']
start_urls = ['http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1']
#start_urls = ['http://whosebug.com/questions?pagesize=50&sort=newest']
rules = [
Rule(LinkExtractor(allow=r's/ref=sr_pg_[0-9]\?[^">]+'),
callback='parse_item', follow=True)
]
'''rules = [
Rule(LinkExtractor(allow=r'questions\?page=[0-9]&sort=newest'),
callback='parse_item', follow=True)
]'''
def parse_item(self, response):
products = response.xpath('//div[@class="summary"]/h3')
for product in products:
item = AmazonProduct()
print('found it!')
yield item
由于某些未知原因,抓取工具未跟踪 link。此代码基于 RealPython 人员的博客教程,他们在其中爬取 Whosebug 以获取问题。实际上,只需取消对注释代码的注释即可看到它是否有效。
知道我在这里遗漏了什么吗?谢谢!
更新:
根据@Rejected 的回答,我已经切换到 shell 并且我可以看到 HTML 代码与他指出的不同,与我在浏览器。
实际上,Scrapy 得到的代码,有趣的是:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s?ie=UTF8&me=A19COJAJDNQSRP&page=2">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>
我更改了我的正则表达式,现在看起来像这样:
s[^">&]+&me=A19COJAJDNQSRP&page=[0-9]$
现在我在 shell:
中得到 links
[Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1', text='\n \n \n \n \n \n \n \n ', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=2', text='2', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=3', text='3', fragment='', nofollow=False)]
而且抓取工具也能正确获取它们!
Scrapy 提供的 HTML 数据与您在浏览器中看到的数据不同(即使只是请求 "view-source:url")。
为什么,我无法 100% 确定。所需的三个(?)链接将匹配允许路径中的 r's/ref=sr_pg_[0-9]'
。
由于亚马逊正在做某事 来确定浏览器,您也应该测试您在 Scrapy 实例中获得的内容。将它放入 shell,然后通过以下方式自己玩转 LinkExtractor
:
LinkExtractor(allow=r's/ref=sr_pg_[0-9]').extract_links(response)
标题说明了一切,我正在尝试让 CrawlSpider 适用于亚马逊的某些产品,但无济于事。
Here 是我想从中获取产品的原始 URL 页面。
查看下一个 link 所在的 HTML 代码,如下所示:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>
这是我当前使用的正则表达式:
s/ref=sr_pg_[0-9]\?[^">]+
并且使用像 Pythex.org 这样的服务,这似乎没问题,我得到了 URL 的这一部分:
s/ref=sr_pg_2?me=A1COIXT69Y8KR&rh=i%3Amerchant-items&page=2&ie=UTF8&qid=1444414650
这是我的爬虫代码:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from amazon.items import AmazonProduct
class AmazonCrawlerSpider(CrawlSpider):
name = 'amazon_crawler'
allowed_domains = ['amazon.com']
#allowed_domains = ['whosebug.com']
start_urls = ['http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1']
#start_urls = ['http://whosebug.com/questions?pagesize=50&sort=newest']
rules = [
Rule(LinkExtractor(allow=r's/ref=sr_pg_[0-9]\?[^">]+'),
callback='parse_item', follow=True)
]
'''rules = [
Rule(LinkExtractor(allow=r'questions\?page=[0-9]&sort=newest'),
callback='parse_item', follow=True)
]'''
def parse_item(self, response):
products = response.xpath('//div[@class="summary"]/h3')
for product in products:
item = AmazonProduct()
print('found it!')
yield item
由于某些未知原因,抓取工具未跟踪 link。此代码基于 RealPython 人员的博客教程,他们在其中爬取 Whosebug 以获取问题。实际上,只需取消对注释代码的注释即可看到它是否有效。
知道我在这里遗漏了什么吗?谢谢!
更新:
根据@Rejected 的回答,我已经切换到 shell 并且我可以看到 HTML 代码与他指出的不同,与我在浏览器。
实际上,Scrapy 得到的代码,有趣的是:
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s?ie=UTF8&me=A19COJAJDNQSRP&page=2">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>
我更改了我的正则表达式,现在看起来像这样:
s[^">&]+&me=A19COJAJDNQSRP&page=[0-9]$
现在我在 shell:
中得到 links[Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1', text='\n \n \n \n \n \n \n \n ', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=2', text='2', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=3', text='3', fragment='', nofollow=False)]
而且抓取工具也能正确获取它们!
Scrapy 提供的 HTML 数据与您在浏览器中看到的数据不同(即使只是请求 "view-source:url")。
为什么,我无法 100% 确定。所需的三个(?)链接将匹配允许路径中的 r's/ref=sr_pg_[0-9]'
。
由于亚马逊正在做某事 来确定浏览器,您也应该测试您在 Scrapy 实例中获得的内容。将它放入 shell,然后通过以下方式自己玩转 LinkExtractor
:
LinkExtractor(allow=r's/ref=sr_pg_[0-9]').extract_links(response)