Nutch 2.2.1 和 HBase - 我可以在 nutch-site.xml 中创建一个新的 属性
Nutch 2.2.1 & HBase - Can I create a new property in nutch-site.xml
我想使用 Nutch 2.2.1 开发一个主题网络机器人。我想用一些主题关键字创建一个新的 属性,如下所示:
<property>
<name>html.metatitle.keys</name>
<value>movie,actor,firm</value>
<description>
</description>
</property>
您的问题有两种不同的解决方案:
实现自定义 HtmlParseFilter
插件来过滤页面
根据您想要的关键字。有关 Nutch 的更多信息
扩展点和为 Nutch 编写自定义插件看看
在这些手册中:
使用索引器根据所需关键字过滤文档;
但是,如果您的索引器中有索引器,则可以使用此解决方案
系统设计架构。在这种情况下,Apache Solr 可以帮助您
用于在索引之前过滤文档。在这里你必须实施
定制的 UpdateRequestProcessor
。有关更多信息
Solr 及其扩展点查看这些页面:
我想使用 Nutch 2.2.1 开发一个主题网络机器人。我想用一些主题关键字创建一个新的 属性,如下所示:
<property>
<name>html.metatitle.keys</name>
<value>movie,actor,firm</value>
<description>
</description>
</property>
您的问题有两种不同的解决方案:
实现自定义
HtmlParseFilter
插件来过滤页面 根据您想要的关键字。有关 Nutch 的更多信息 扩展点和为 Nutch 编写自定义插件看看 在这些手册中:使用索引器根据所需关键字过滤文档; 但是,如果您的索引器中有索引器,则可以使用此解决方案 系统设计架构。在这种情况下,Apache Solr 可以帮助您 用于在索引之前过滤文档。在这里你必须实施 定制的
UpdateRequestProcessor
。有关更多信息 Solr 及其扩展点查看这些页面: