在 spark-submit 命令中设置 default.parallelism

Setting default.parallelism in spark-submit command

执行 spark-submit 作业时更改默认并行度的语法是什么?

我可以在提交我的spark作业时通过以下命令指定executor数量,executor cores和executor memory:

spark-submit --num-executors 9 --executor-cores 5 --executor-memory 48g

conf 文件中指定并行度为:

spark.conf.set("spark.default.parallelism",90)

如果我在 spark-submit 命令中更改它,会是吗?:

spark-submit --default.parallelism 90

根据 Launching Application with spark-submit 上的 Spark 文档,spark-submit 命令具有以下语法:

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]

在你的情况下,如果你想更改提到的配置,你需要添加以下内容。

spark-submit [...] --conf spark.default.parallelism=90