Spark 中的 mapreduce 参数

mapreduce parameters in Spark

hadoop
hadoop-yarn
apache-spark

我想知道 mapreduce.* 参数是否适用于 Spark。

据我所知，在 Spark 中，map 输出没有缓冲区，对于 reduce 任务，整个过程也不同。 mapreduce.task.io.sort.mb 、mapreduce.reduce.shuffle.input.buffer.percent 或 mapreduce.reduce.input.buffer.percent 等参数控制此类缓冲区。我正在为 hadoop/yarn 集群中的 spark tasks/jobs 运行优化参数。

可以肯定地说，这些 mapreduce 参数无关紧要，我应该只关心 spark.* 参数，因为 map、shuffle 和 reduce 部分不同？

安全是因为Spark不使用MapReduce作为处理引擎，而是直接与YARN交互提交操作。因此，当您使用 Spark 时，没有安排 MapReduce 作业，但您有 Spark 应用程序和 Spark 作业。

Spark 中的 mapreduce 参数

mapreduce parameters in Spark

hadoop

hadoop-yarn

apache-spark