Elasticsearch-Hadoop 获取非索引数据
Elasticsearch-Hadoop get Non-indexed data
我有一个有大量数据的弹性搜索集群。我想将所有数据从 elasticsearch 提取到 Hadoop(Hive) 中。我使用 Elasticsearch-Hadoop 驱动程序通过使用 Hive external table 从 elasticsearch 中提取数据,但它太慢并且总是无法完成任务。
我的第一个问题是从现有的 elasticsearch 集群中获取所有数据。
第二个问题是在一天或一小时内将流式传输到 HDFS 上的 elasticsearch 中的所有数据复制一次。
我怎样才能实现这些?
提前致谢。
您可以使用 hadoop 系统作为仓库来存储数据,从那里您可以将数据推送到 elasticsearch 反之亦然 versa.Try 仅对您要分析的数据使用 elasticsearch 删除其余数据来自弹性搜索。所以每次你想对不同方面进行分析时,都会从 hadoop 中提取数据并使用它。
我有一个有大量数据的弹性搜索集群。我想将所有数据从 elasticsearch 提取到 Hadoop(Hive) 中。我使用 Elasticsearch-Hadoop 驱动程序通过使用 Hive external table 从 elasticsearch 中提取数据,但它太慢并且总是无法完成任务。
我的第一个问题是从现有的 elasticsearch 集群中获取所有数据。 第二个问题是在一天或一小时内将流式传输到 HDFS 上的 elasticsearch 中的所有数据复制一次。
我怎样才能实现这些?
提前致谢。
您可以使用 hadoop 系统作为仓库来存储数据,从那里您可以将数据推送到 elasticsearch 反之亦然 versa.Try 仅对您要分析的数据使用 elasticsearch 删除其余数据来自弹性搜索。所以每次你想对不同方面进行分析时,都会从 hadoop 中提取数据并使用它。