获取时的 Apache Nutch 2.3.1 扩展点

Apache Nutch 2.3.1 extension point at fetch time

我已成功配置 Hadoop (2.x)、Hbase 和 Nutch 2.3.1。我还抓取了一些示例页面也用于测试。现在我必须使用开源工具 cld2 对特定语言进行集中爬取。如果抓取的文档不包含该特定语言，则不应保存该文档（在 Hbase 中），也不应将其索引到 Solr。在 Nutch WIKI 中，获取时没有给出扩展点。还有其他可能的方法来完成这项工作吗？

目前 Nutch 附带的 fetchers 实现中没有扩展点。如果您考虑一下，您需要获取和解析文档（以提取语言），然后您可以编写自己的 IndexingFilter 来检查文档的语言并决定是否要索引它或不是。

这个自己写应该不难吧。另一方面，对于 Nutch 1.x，我们已经有了这个 PR https://github.com/apache/nutch/pull/219，它可以很容易地移植到 2.x 上工作，然后你只需要正确的 JEXL 表达式。

我们已经有了 Nutch 附带的 language-identifier 插件 2.x 您可以看看它是如何实现的，并添加您自己的与 cld2 的集成作为一个不同的插件。如果您想使用 cld2，那么您需要编写一些解析器（连同索引器）来检测内容中的语言。

获取时的 Apache Nutch 2.3.1 扩展点

Apache Nutch 2.3.1 extension point at fetch time

apache

hadoop

hbase

nutch