SparklyR 连接到独立 spark 集群,仅连接到 2/6 worker

SparklyR connection to standalone spark cluster only connecting to 2/6 workers

我终于成功地设置了我的堆栈以使用 RStudio 通过 sparklyR 连接到一个独立的 spark 集群(在 CassandraDB 中有文件存储)。

我仍然无法解决的唯一问题是如何让我的 sparklyR 连接利用集群上所有可用的工作节点(总共有 6 个)。每次连接时,Executor Summary 页面都会显示 sparklyR 连接仅使用 2 个 worker(每个节点上有 1 个 executor)。

我试过为 spark_connect 调用使用 config.yml 文件,包括设置 spark.executor.instances: 6spark.num.executors: 6,但这并没有什么不同.我可以使用其他设置让 sparklyR 使用所有节点吗?我能否以某种方式将所有工作人员 IP 地址的列表传递给 spark_connect,以便它连接到所有工作人员?

我的设置如下: RStudio:1.0.136, 闪闪发光R:0.5.3-9000, Spark 版本(集群上和本地):2.0.0。

终于解决了!它是如此简单明了,我不敢相信我错过了它。

配置 (spark-defaults.conf) 文件具有以下设置:

spark.executor.cores: 5
spark.cores.max: 12

这当然意味着它不能启动超过 2 个(5 核)执行程序,因为整个应用程序允许的最大内核数是 12。