运行 spider 如何在日志中写入 scrapy?
How scrapy write in log while running spider?
虽然 运行 scrapy 蜘蛛,我看到日志消息有 "DEBUG:" 其中有
1. DEBUG: 抓取 (200) (GET http://www.example.com) (referer: None)
2. 调试:从 (200 http://www.example.com)
中删除
我想知道
1. "Crawled" 和 "Scraped from" 是什么意思?
2. 从上面两个 ULR 返回的地方(即在抓取 variable/argument 包含这些 URL 的页面时)
让我尝试根据 Scrapy Website 上显示的 Scrapy Sample Code
进行解释。我将其保存在文件 scrapy_example.py
.
中
from scrapy import Spider, Item, Field
class Post(Item):
title = Field()
class BlogSpider(Spider):
name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
def parse(self, response):
return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令 scrapy runspider scrapy_example.py
执行此操作将产生以下输出:
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
Crawled
表示:scrapy已经下载了该网页。
Scraped
表示:scrapy 已经从该网页中提取了一些数据。
URL
在脚本中作为 start_urls
参数给出。
您的输出一定是由 运行 蜘蛛生成的。搜索定义该蜘蛛的文件,您应该能够找到定义 url 的位置。
虽然 运行 scrapy 蜘蛛,我看到日志消息有 "DEBUG:" 其中有 1. DEBUG: 抓取 (200) (GET http://www.example.com) (referer: None) 2. 调试:从 (200 http://www.example.com)
中删除我想知道 1. "Crawled" 和 "Scraped from" 是什么意思? 2. 从上面两个 ULR 返回的地方(即在抓取 variable/argument 包含这些 URL 的页面时)
让我尝试根据 Scrapy Website 上显示的 Scrapy Sample Code
进行解释。我将其保存在文件 scrapy_example.py
.
from scrapy import Spider, Item, Field
class Post(Item):
title = Field()
class BlogSpider(Spider):
name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
def parse(self, response):
return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令 scrapy runspider scrapy_example.py
执行此操作将产生以下输出:
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
Crawled
表示:scrapy已经下载了该网页。
Scraped
表示:scrapy 已经从该网页中提取了一些数据。
URL
在脚本中作为 start_urls
参数给出。
您的输出一定是由 运行 蜘蛛生成的。搜索定义该蜘蛛的文件,您应该能够找到定义 url 的位置。