Apache Nutch 获取和更新阶段

Apache Nutch fetch and updatedb stages

我有一个关于 Nutch 获取链接以更新 crawdb 的方式的问题。

有问题的命令是bin/nutch updatedb crawl/crawldb $s1

我需要编写一个自定义解析器,在这样做之前我已经检查了 Nutch 的源代码,就我而言,我负责提供更新 crawdb 的链接,方法是从文档中提取它并作为 Outlink[] 放入 ParseData 中。至少那是我从 this.

中了解到的

如果我错了请纠正我,因为我不希望我的爬虫在第一次迭代后停止,因为它没有更新 crawdb 的链接。

Nutch 使用 parse-htmlparse-tika 来解析您抓取的 URL(通常是 HTML),在此阶段提取并存储外链,当您执行爬虫 Nutch 将 select 一些可用的(提取的)链接继续抓取,如果您需要从网络中提取额外的信息,您只需要编写自己的解析器,假设您想要所有 h1 例如,单独字段中的标题。

如果您查看爬网脚本 (https://github.com/apache/nutch/blob/master/src/bin/crawl#L246),您会发现每次迭代都会执行一次 updatedb 命令,因此如果您使用 parse-htmlparse-tika 自动为您提取 HTML 文档(以及其他文档)的外链。