使用elasticsearch索引从Apache nutch抓取的数据?
index crawled data from Apache nutch using elasticsearch?
我在 aws ec2 ubuntu 实例上安装了 apache nutch 1.7 和 Elasticsearch 1.4.4。我使用 Nutch 抓取数据,但我们如何使用 elasticsearch 索引数据?没有相关的官方文档。
在配置中启用 elasticsearch 索引器。将 elastic-indexer 添加到插件 linclude 属性 列表中。见下文:
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
在您的 nutch-site.xml 添加以下属性:
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
以上将使elasticsearch成为索引器。
以下是指定 elasticsearch
的主机
<property>
<name>elastic.host</name>
<value>localhost</value>
</property>
您可以设置的其他可选属性有 elastic.port、elastic.cluster 等。
现在你指定你已经爬取了数据,现在想要索引它,所以你可以使用
./bin/nutch index <crawldb> -dir <segment_dir>
这将索引驻留在段中的所有已爬网数据。您可以检查文档的 elasticsearch 索引。
我在 aws ec2 ubuntu 实例上安装了 apache nutch 1.7 和 Elasticsearch 1.4.4。我使用 Nutch 抓取数据,但我们如何使用 elasticsearch 索引数据?没有相关的官方文档。
在配置中启用 elasticsearch 索引器。将 elastic-indexer 添加到插件 linclude 属性 列表中。见下文:
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
在您的 nutch-site.xml 添加以下属性:
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
以上将使elasticsearch成为索引器。 以下是指定 elasticsearch
的主机<property>
<name>elastic.host</name>
<value>localhost</value>
</property>
您可以设置的其他可选属性有 elastic.port、elastic.cluster 等。
现在你指定你已经爬取了数据,现在想要索引它,所以你可以使用
./bin/nutch index <crawldb> -dir <segment_dir>
这将索引驻留在段中的所有已爬网数据。您可以检查文档的 elasticsearch 索引。