如何在 pyspark 的客户端模式下设置 spark 驱动程序 maxResultSize?

How to set spark driver maxResultSize when in client mode in pyspark?

我知道当您在 pyspark 中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM 就会启动。

因此,设置配置的方法是实际去编辑启动它的 shell 脚本:spark-env.sh...根据此文档 here

如果我想更改驱动程序的最大结果大小,我通常会这样做:spark.driver.maxResultSizespark-env.sh 文件中的等效项是什么?

有些环境变量很容易设置,比如SPARK_DRIVER_MEMORY明明是spark.driver.memory的设置,但是spark.driver.maxResultSize的环境变量是什么?谢谢你。

配置文件是conf/spark-default.conf

如果conf/spark-default.conf不存在

cp conf/spark-defaults.conf.template conf/spark-defaults.conf

添加类似

的配置
spark.driver.maxResultSize  2g

有多种配置,参考Spark Configuration