Apache Nutch 2.3.1 获取特定的 MIME 类型文件

Apache Nutch 2.3.1 fetch specific MIME type documents

我已经为 Apache Nutch 2.3.1 配置了 hadoop/hbase 生态系统。我必须抓取特定文档，即仅包含文本内容的文档。我发现 regex-urlfilter.txt 可以排除 MIME，但找不到任何选项来指定我要抓取的 MIME。 regex-url 过滤器中的问题是可能有许多 MIME 类型会随着时间的推移而增加。所以很难包括所有？有什么方法可以指示 Nutch 获取 text/html 文档，例如

URL 过滤器仅适用于 URL，这意味着您只能基于此进行断言。由于 URL 过滤器在文档 fetched/parsed 之前执行，因此没有可用于 allow/block URL 的 mimetype。

还有一个问题，如果您指定要抓取特定 mime 类型，但在当前抓取周期中没有更多具有该 mime 类型的文档，会发生什么情况？然后将停止抓取，直到您添加更多 URL 来抓取（手动），或者另一个 URL 将被抓取。

通常的方法是 crawl/parse 所有内容并提取所有 link（您永远不知道什么时候会出现符合您要求的新 link）。然后只索引某些 mime 类型。

对于 Nutch 2.x 恐怕目前还没有这样做的机制。在 Nutch 1.x 上我们有两个：

您可以将这些选项中的任何一个移植到 Nutch 2.x。

Apache Nutch 2.3.1 获取特定的 MIME 类型文件

Apache Nutch 2.3.1 fetch specific MIME type documents

apache

web-crawler

nutch

mime-filter

nutch2