在 Storm Crawler 中为特定基 URL 爬取所有子 URL 的完成事件
completion event of crawling all of the sub URLs for specific base URL in Storm Crawler
我目前正在从事基于 Storm Crawler 的项目。我需要在抓取该基地 URL 的所有子 URL 完成事件后进行一些处理。例如,我想在该域的所有已发现 URL 爬网成功或出现错误时更改状态。我如何找到每个基地的完成事件 URL?
不是开箱即用的,不是。您必须自己实施一种机制来检查是否有未提取的 URL 留给给定的密钥。
我目前正在从事基于 Storm Crawler 的项目。我需要在抓取该基地 URL 的所有子 URL 完成事件后进行一些处理。例如,我想在该域的所有已发现 URL 爬网成功或出现错误时更改状态。我如何找到每个基地的完成事件 URL?
不是开箱即用的,不是。您必须自己实施一种机制来检查是否有未提取的 URL 留给给定的密钥。