设置 PySpark 脚本中使用的内核数?

Setting number of cores used in PySpark script?

我想知道如何设置 PySpark 程序中使用的核心数。

我进行了一些搜索,但未能找到明确的答案。

您可以使用 --executor-cores 属性 指定在使用 spark-submit 提交申请时要使用的核心数。

下面是一个例子:

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn-cluster \
    --num-executors 3 \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1
    lib/spark-examples*.jar \
    10

您可以使用 --executor-cores 和 spark-submit 来设置它,或者使用 sc.setExecutorEnv(key=None, value=None, pairs=None) 在代码中它自己。