nutch 生成器是否使用 CrawlDB 进行初始链接?

Does nutch generator use CrawlDB to for initial links?

我知道初始种子是由平面文件提供的。然而,这些 url 被注入到哪里呢?是抓取数据库吗?如果是这样,爬虫获取的新链接是否存储回 crawlDB 中?当系统关闭时会发生什么,crawlDB 是否会在下次 nutch 启动时刷新?

实际上我希望 nutch 在系统关闭的情况下从停止的地方恢复爬行。

是的,注入将您的简单种子列表变成 crawdb 中的条目。解析步骤发现的新链接在更新步骤中与现有的 crawdb 合并。 Nutch 不会自行恢复爬行,如果系统关闭,您将不得不重新启动 Nutch 脚本,要采取的操作将取决于它停止时的位置。

如果您需要一个可以在发生故障时自行恢复的连续爬虫,StormCrawler 可能是更好的选择。

有很多 Nutch 教程应该有助于理解它是如何工作的,包括描述 Nutch 和 StormCrawler 的 on from our blog