Apache Nutch 获取和更新阶段

Apache Nutch fetch and updatedb stages

我有一个关于 Nutch 获取链接以更新 crawdb 的方式的问题。

有问题的命令是bin/nutch updatedb crawl/crawldb $s1

我需要编写一个自定义解析器，在这样做之前我已经检查了 Nutch 的源代码，就我而言，我负责提供更新 crawdb 的链接，方法是从文档中提取它并作为 Outlink[] 放入 ParseData 中。至少那是我从 this.

中了解到的

如果我错了请纠正我，因为我不希望我的爬虫在第一次迭代后停止，因为它没有更新 crawdb 的链接。

Nutch 使用 parse-html 或 parse-tika 来解析您抓取的 URL（通常是 HTML），在此阶段提取并存储外链，当您执行爬虫 Nutch 将 select 一些可用的（提取的）链接继续抓取，如果您需要从网络中提取额外的信息，您只需要编写自己的解析器，假设您想要所有 h1 例如，单独字段中的标题。

如果您查看爬网脚本 (https://github.com/apache/nutch/blob/master/src/bin/crawl#L246)，您会发现每次迭代都会执行一次 updatedb 命令，因此如果您使用 parse-html 或 parse-tika 自动为您提取 HTML 文档（以及其他文档）的外链。

Apache Nutch 获取和更新阶段

Apache Nutch fetch and updatedb stages

java

apache

parsing

nutch

html-parsing