Spark 中的 mapreduce 参数
mapreduce parameters in Spark
我想知道 mapreduce.* 参数是否适用于 Spark。
据我所知,在 Spark 中,map 输出没有缓冲区,对于 reduce 任务,整个过程也不同。 mapreduce.task.io.sort.mb 、mapreduce.reduce.shuffle.input.buffer.percent 或 mapreduce.reduce.input.buffer.percent 等参数控制此类缓冲区。
我正在为 hadoop/yarn 集群中的 spark tasks/jobs 运行 优化参数。
可以肯定地说,这些 mapreduce 参数无关紧要,我应该只关心 spark.* 参数,因为 map、shuffle 和 reduce 部分不同?
安全是因为Spark不使用MapReduce作为处理引擎,而是直接与YARN交互提交操作。因此,当您使用 Spark 时,没有安排 MapReduce 作业,但您有 Spark 应用程序和 Spark 作业。
我想知道 mapreduce.* 参数是否适用于 Spark。
据我所知,在 Spark 中,map 输出没有缓冲区,对于 reduce 任务,整个过程也不同。 mapreduce.task.io.sort.mb 、mapreduce.reduce.shuffle.input.buffer.percent 或 mapreduce.reduce.input.buffer.percent 等参数控制此类缓冲区。 我正在为 hadoop/yarn 集群中的 spark tasks/jobs 运行 优化参数。
可以肯定地说,这些 mapreduce 参数无关紧要,我应该只关心 spark.* 参数,因为 map、shuffle 和 reduce 部分不同?
安全是因为Spark不使用MapReduce作为处理引擎,而是直接与YARN交互提交操作。因此,当您使用 Spark 时,没有安排 MapReduce 作业,但您有 Spark 应用程序和 Spark 作业。