Nutch 爬取成功后 Elasticsearch 索引失败

Question

我不确定为什么，但 Nutch 1.13 无法将数据索引到 ES (v2.3.3)。它正在爬行，这很好，但是当它索引到 ES 时它给我这个错误信息：

Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:147)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:230)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:239)

在那之前有这个：

elastic.bulk.close.timeout : elastic timeout for the last bulk in seconds. (default 600)

我不确定超时是否与作业失败有关？

我已经运行 Nutch v1.10 多次使用都没有问题，但现在决定升级。以前从来没有过这个错误，直到现在，随着升级。

编辑： 仔细检查错误消息后：

    Error running:
  /home/david/tutorials/nutch/nutch-1.13/runtime/local/bin/nutch index -Delastic.server.url=http://localhost:9300/search-index/ searchcrawl//crawldb -linkdb searchcrawl//linkdb searchcrawl//segments/20170519125546

它似乎在那里失败了，在那个特定的部分，这是什么意思？我只知道如何使用 Nutch 的基础知识，我绝不是专家。它在 link 上失败了吗？

Answer 1

在 Nutch 1.14 发布之前，您需要应用此补丁 https://github.com/apache/nutch/pull/156 并重建：

cd apache-nutch-1.13
wget https://raw.githubusercontent.com/apache/nutch/e040ace189aa0379b998c8852a09c1a1a2308d82/src/java/org/apache/nutch/indexer/CleaningJob.java
mv CleaningJob.java  src/java/org/apache/nutch/indexer/.

Nutch 爬取成功后 Elasticsearch 索引失败

Elasticsearch indexing fails after successful Nutch crawl

nutch

elasticsearch