为什么 spark 比 Hadoop Map Reduce 快 100 倍
Why spark is 100 times faster than Hadoop Map Reduce
为什么 spark 比 Hadoop MapReduce 更快?。
根据我的理解,如果 spark 由于内存中处理而更快,那么 Hadoop 也会将数据加载到 RAM 中,然后进行处理。每个程序首先加载到 RAM 中然后执行。那么我们怎么能说 spark 正在做内存处理,为什么其他大数据技术不做同样的事情。你能解释一下吗?
Spark 是从 MapReduce 中吸取的所有教训创建的。它不是第 2 代,它使用类似的概念重新设计,但实际上 learning what was missing/done poorly in map reduce。
MapReduce 对数据进行分区,它读取数据,做映射,写入磁盘,发送到reducer,reducer 将它写入磁盘,然后读取它,然后减少它,然后写入磁盘。大量写作和阅读。如果你想做另一个操作,你重新开始整个循环。
Spark,尝试将其保存在内存中,虽然它会执行多个 maps/operations,但它仍然会传输数据,但仅在必须时才会传输数据,并使用智能逻辑来确定如何优化您的要求它去做。在记忆中很有帮助,但不是唯一的作用。
为什么 spark 比 Hadoop MapReduce 更快?。 根据我的理解,如果 spark 由于内存中处理而更快,那么 Hadoop 也会将数据加载到 RAM 中,然后进行处理。每个程序首先加载到 RAM 中然后执行。那么我们怎么能说 spark 正在做内存处理,为什么其他大数据技术不做同样的事情。你能解释一下吗?
Spark 是从 MapReduce 中吸取的所有教训创建的。它不是第 2 代,它使用类似的概念重新设计,但实际上 learning what was missing/done poorly in map reduce。
MapReduce 对数据进行分区,它读取数据,做映射,写入磁盘,发送到reducer,reducer 将它写入磁盘,然后读取它,然后减少它,然后写入磁盘。大量写作和阅读。如果你想做另一个操作,你重新开始整个循环。
Spark,尝试将其保存在内存中,虽然它会执行多个 maps/operations,但它仍然会传输数据,但仅在必须时才会传输数据,并使用智能逻辑来确定如何优化您的要求它去做。在记忆中很有帮助,但不是唯一的作用。