Apache Nutch 2.3.1 获取特定的 MIME 类型文件

Apache Nutch 2.3.1 fetch specific MIME type documents

我已经为 Apache Nutch 2.3.1 配置了 hadoop/hbase 生态系统。我必须抓取特定文档,即仅包含文本内容的文档。我发现 regex-urlfilter.txt 可以排除 MIME,但找不到任何选项来指定我要抓取的 MIME。 regex-url 过滤器中的问题是可能有许多 MIME 类型会随着时间的推移而增加。所以很难包括所有?有什么方法可以指示 Nutch 获取 text/html 文档,例如

URL 过滤器仅适用于 URL,这意味着您只能基于此进行断言。由于 URL 过滤器在文档 fetched/parsed 之前执行,因此没有可用于 allow/block URL 的 mimetype。

还有一个问题,如果您指定要抓取特定 mime 类型,但在当前抓取周期中没有更多具有该 mime 类型的文档,会发生什么情况?然后将停止抓取,直到您添加更多 URL 来抓取(手动),或者另一个 URL 将被抓取。

通常的方法是 crawl/parse 所有内容并提取所有 link(您永远不知道什么时候会出现符合您要求的新 link)。然后只索引某些 mime 类型。

对于 Nutch 2.x 恐怕目前还没有这样做的机制。在 Nutch 1.x 上我们有两个:

您可以将这些选项中的任何一个移植到 Nutch 2.x。