Nutch 2.2.1 和 HBase - 我可以在 nutch-site.xml 中创建一个新的 属性

Nutch 2.2.1 & HBase - Can I create a new property in nutch-site.xml

我想使用 Nutch 2.2.1 开发一个主题网络机器人。我想用一些主题关键字创建一个新的 属性,如下所示:

<property>
    <name>html.metatitle.keys</name>
    <value>movie,actor,firm</value>
    <description>
    </description>
</property>

您的问题有两种不同的解决方案:

  1. 实现自定义 HtmlParseFilter 插件来过滤页面 根据您想要的关键字。有关 Nutch 的更多信息 扩展点和为 Nutch 编写自定义插件看看 在这些手册中:

    http://wiki.apache.org/nutch/AboutPlugins

    http://wiki.apache.org/nutch/WritingPluginExample

  2. 使用索引器根据所需关键字过滤文档; 但是,如果您的索引器中有索引器,则可以使用此解决方案 系统设计架构。在这种情况下,Apache Solr 可以帮助您 用于在索引之前过滤文档。在这里你必须实施 定制的 UpdateRequestProcessor。有关更多信息 Solr 及其扩展点查看这些页面:

    https://wiki.apache.org/solr/FrontPage

    https://wiki.apache.org/solr/UpdateRequestProcessor