将数据从 Nutch 映射到 Elasticsearch 1.x

Mapping data into Elasticsearch from Nutch 1.x

我一直在使用 Nutch 1.10 进行一些小型网络爬取,并使用 Elasticsearch 1.4.1 对爬取数据进行索引 - 似乎优化索引映射的唯一方法是先爬取,查看映射ES 自行完成,然后使用映射 API.

相应地(如有必要)更改它

有谁知道更有效的解决方案来优化 ES 索引内的映射以进行网络爬虫?

更新: 甚至可以从 Nutch 网络爬虫更新 ES 映射吗?

这里有两点需要考虑:

  1. 索引的数据是什么?
  2. 如何正确索引到 es

关于索引数据,您使用的索引插件会影响它。比如basic-index会添加content, host, url, 每个doc。您可以查看插件的文档或简单地查看输出是什么(就像您所做的那样)。

在您知道索引数据以及您希望如何在 es 集群中处理它之后,您可以使用正确/优化的映射在 es 中创建一个新索引,并确保 Nutch 将索引到该索引。

当然你也可以重新索引你已经抓取的内容(参见this es article)。