什么是 ElasticSearch-Hadoop (es-hadoop) 及其相对于 HBase 的实时 Web 应用程序优势?

What is ElasticSearch-Hadoop (es-hadoop) and its benefit over HBase for a live web application?

我不太清楚 description 中的 es-hadoop 是什么。

这仅仅是 "connector" 将数据从您的 ES 集群移动到 HDFS 以进行 Hadoop 分析吗?如果是这样,为什么不直接使用 HBase 进行低延迟文本查询?

es-Hadoop 的安装是否与常规 ES 不同?

请澄清一下。

谢谢。

ES-Hadoop 更像是 Hadoop 生态系统与 ES 之间的连接器。它不是 ES 的单独版本。

基本上提高了Hadoop生态系统应用到ES的集成度。在我的组织中,我们将此功能用于两个目的:

  1. 在将数据索引到ES之前,我们使用Spark对数据进行分析,并进行相关的聚合,减少ES上应该做的索引量。 ES-Hadoop 帮助我们直接从 Spark 数据结构索引到 ES。我们用一行代码开始索引过程,不需要自己编写索引程序。 (该功能是可配置的,您可以根据需要灵活地索引数据)。

  2. 在我们的组织中,我们使用 ES 作为近乎实时的分析集群。 ES 中的数据以一种能够为我们的客户产生最佳性能的方式放置。有时(通常是当我们对一些新功能有想法时)我们必须从 ES 中获取数据并对数据进行一些复杂的处理。在这些情况下,我们也可以在一行代码中从 ES 数据创建 Spark 数据结构。

因此,ES-Hadoop 更接近于成为一个编写良好的连接器。您仍然需要将数据从 ES 集群传输到 Hadoop。

我不确定与 HBase 的比较,你不能真正比较 HBase 的特性,它是一个键值存储,与 ES 相比,ES 是一个通用的搜索引擎 + 在中实现了非常好的分析功能最后的版本。正如我所见,我们正在处理不同的工具来解决不同的问题集。