hadoop 与 mongodb 和 hadoop 对比 mongodb

hadoop with mongodb and hadoop vs mongodb

我试图了解 mongoDB 和 Hadoop 之间的主要区别。 我理解 mongoDB 是一个数据库,而 Hadoop 是一个包含 HDFS 的生态系统。使用这两种技术处理数据的方式有一些相似之处,但也存在主要差异。

我很困惑为什么有人会在 Hadoop 集群上使用 mongoDB,主要是 mongoDB 比 Hadoop 有什么优势。两者都执行并行处理,都可以与 Spark 一起使用以进行进一步的数据分析,那么一个比另一个增加的价值是多少。

现在,如果要将两者结合起来,为什么要将数据存储在 mongoDB 和 HDFS 中? MongoDB有map/reduce,那为什么要将数据发送到hadoop进行处理,而且两者都与Spark兼容。

首先让我们看看我们在说什么

  • Hadoop - 一个生态系统。两个主要组件是 HDFS 和 MapReduce。
  • MongoDB - 文档类型 NoSQL 数据库。

让我们在两种类型的工作负载上比较它们

  1. 高延迟高吞吐量(批处理)-处理如何处理和分析大量数据的问题。处理将以并行和分布式方式进行,以便以最有效的方式最终确定和检索结果。 Hadoop 是处理此类问题的最佳方式,跨多个服务器以分布式和并行的方式管理和处理数据。

  2. Low Latency and low throughput(即时获取数据,实时结果,大量用户)- 在处理需要显示即时结果的时候以尽可能最快的方式,或者进行小型并行处理,从而为多个并发用户提供 NRT 结果,NoSQL 数据库将是最好的方式。

堆栈中的一个简单示例是使用 Hadoop 来处理和分析大量数据,然后将最终结果存储在 MongoDB 中,以便您:

  1. 以最快的方式访问它们
  2. 由于它们的规模较小,因此对其进行重新处理

最重要的是,您不应将 Hadoop 和 MongoDB 视为竞争对手,因为每个人都有自己的最佳用例和数据处理方法,它们在您的工作中相互补充并相互补充数据.

希望这是有道理的。

首先我们要知道这两个词是什么意思

HADOOP Hadoop 是由 Apache 基金会开发的用于大数据分析的开源工具。它是存储和分析大数据最常用的工具。它同样使用集群架构。 Hadoop 有一个庞大的生态系统,这个生态系统由一些强大的工具组成。

MongoDB MongoDB 是一个开源、通用、基于文档的分布式 NoSQL 数据库,用于存储大数据。 MongoDB 具有非常丰富的查询语言,可实现高性能。 MongoDB 是一个基于文档的数据库,这意味着它将数据存储在类似 JSON 格式的文档中。

差异

这两种工具都足以利用大数据。这取决于您的要求。对于某些项目,Hadoop 将是一个不错的选择,并且一些 MongoDB 非常适合。

希望这可以帮助您区分两者。