Spark Java: 无法更改驱动程序内存

Spark Java: Cannot change driver memory

因此,我有一个 spark 独立集群,其中包含 16 个工作节点和一个主节点。我从 spark_home/conf 文件夹中的主节点使用“sh start-all.sh”命令启动集群。主节点有 32Gb Ram 和 14 个 VCPUS,而我每个节点有 16Gb Ram 和 8 个 VCPUS。我还有一个 spring 应用程序,当它启动时(使用 java -jar app.jar),它会初始化 spark 上下文。 spark-env.sh 文件是:

export SPARK_MASTER_HOST='192.168.100.17'
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=14000mb 
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_OPTS='-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=172800 -Dspark.worker.cleanup.appDataTtl=172800'

我在 spark-defaults.conf 中没有任何内容,以编程方式初始化 spark 上下文的代码是:

@Bean
public SparkSession sparksession() {
     SparkSession sp = SparkSession
             .builder()
    .master("spark://....")
    .config("spark.cassandra.connection.host","192.168.100......")
    .appName("biomet")
    .config("spark.driver.memory","20g")
    .config("spark.driver.maxResultSize", "10g")
    .config("spark.sql.shuffle.partitions",48) 
    .config("spark.executor.memory","7g") 
    .config("spark.sql.pivotMaxValues","50000") 
    .config("spark.sql.caseSensitive",true)
    .config("spark.executor.extraClassPath","/home/ubuntu/spark-2.4.3-bin-hadoop2.7/jars/guava-16.0.1.jar")
    .config("spark.hadoop.fs.s3a.access.key","...")
    .config("spark.hadoop.fs.s3a.secret.key","...")
             .getOrCreate();
     return sp;
 }

毕竟 Spark UI 的环境选项卡有 spark.driver.maxResultSize 10g 和 spark.driver.memory 20g 但是驱动程序存储内存的执行程序选项卡显示 0.0 B / 4.3 GB .

(仅供参考:我以前 spark.driver.memory 为 10g(以编程方式设置),并且在执行程序选项卡中显示为 4.3Gb,但现在看来我无法更改它。但我认为即使当我有 10g 的时候,它不是应该给我超过 4.3Gb 的吗?!)

如何更改驱动程序内存?我尝试从 spark-defaults.conf 设置它,但没有任何改变。即使我根本没有设置驱动程序内存(或将其设置为小于 4.3Gb),它仍然在执行程序选项卡中显示 4.3Gb。

我怀疑你是运行客户端模式下的应用,然后per documentation:

Maximum heap size settings can be set with spark. driver. memory in the cluster mode and through the --driver-memory command line option in the client mode. Note: In client mode, this config must not be set through the SparkConf directly in your application, because the driver JVM has already started at that point.

在当前情况下,Spark 作业是从应用程序提交的,因此应用程序本身就是一个驱动程序,其内存像往常一样为 Java 应用程序进行调节 - 通过 -Xmx 等。