DEPTH_LIMIT 到底指的是什么?当前深度是否可参考?

What precisely does DEPTH_LIMIT refer to? Is the current depth referencable?

Scrapy 表示它有一个 DEPTH_LIMIT setting,但没有具体说明它认为 'depth'。在抓取页面方面,我看到 'depth' 引用 'depth of the url' 或 http://somedomain.com/this/is/a/depth/six/url,其中 URL 请求的页面深度为 'six',因为它有六个片段。http://somedomain.com 深度为零。

另一方面,当我们从树木的角度考虑刮擦时,深度更可能指的是您离起始位置有多远。因此,如果我给它提供 http://somedomain.com/start/here 的起始 url,即深度为零,并且在该响应中找到的任何 link 都将是深度一。

Scrapy 是否使用这些定义之一?如果是哪一个?如果是后者(看起来更合乎逻辑),有什么方法可以获取深度信息,无论是在爬虫中处理响应时,还是在 post-将其作为管道中的项目?

Scrapy 使用 DFS 方法进行遍历,可以通过响应元数据访问当前深度:response.meta['depth'].