将数据从 Nutch 映射到 Elasticsearch 1.x
Mapping data into Elasticsearch from Nutch 1.x
我一直在使用 Nutch 1.10 进行一些小型网络爬取,并使用 Elasticsearch 1.4.1 对爬取数据进行索引 - 似乎优化索引映射的唯一方法是先爬取,查看映射ES 自行完成,然后使用映射 API.
相应地(如有必要)更改它
有谁知道更有效的解决方案来优化 ES 索引内的映射以进行网络爬虫?
更新:
甚至可以从 Nutch 网络爬虫更新 ES 映射吗?
这里有两点需要考虑:
- 索引的数据是什么?
- 如何正确索引到 es
关于索引数据,您使用的索引插件会影响它。比如basic-index会添加content, host, url, 等 每个doc。您可以查看插件的文档或简单地查看输出是什么(就像您所做的那样)。
在您知道索引数据以及您希望如何在 es 集群中处理它之后,您可以使用正确/优化的映射在 es 中创建一个新索引,并确保 Nutch 将索引到该索引。
当然你也可以重新索引你已经抓取的内容(参见this es article)。
我一直在使用 Nutch 1.10 进行一些小型网络爬取,并使用 Elasticsearch 1.4.1 对爬取数据进行索引 - 似乎优化索引映射的唯一方法是先爬取,查看映射ES 自行完成,然后使用映射 API.
相应地(如有必要)更改它有谁知道更有效的解决方案来优化 ES 索引内的映射以进行网络爬虫?
更新: 甚至可以从 Nutch 网络爬虫更新 ES 映射吗?
这里有两点需要考虑:
- 索引的数据是什么?
- 如何正确索引到 es
关于索引数据,您使用的索引插件会影响它。比如basic-index会添加content, host, url, 等 每个doc。您可以查看插件的文档或简单地查看输出是什么(就像您所做的那样)。
在您知道索引数据以及您希望如何在 es 集群中处理它之后,您可以使用正确/优化的映射在 es 中创建一个新索引,并确保 Nutch 将索引到该索引。
当然你也可以重新索引你已经抓取的内容(参见this es article)。