SparklyR 连接到独立 spark 集群，仅连接到 2/6 worker

Question

我终于成功地设置了我的堆栈以使用 RStudio 通过 sparklyR 连接到一个独立的 spark 集群（在 CassandraDB 中有文件存储）。

我仍然无法解决的唯一问题是如何让我的 sparklyR 连接利用集群上所有可用的工作节点（总共有 6 个）。每次连接时，Executor Summary 页面都会显示 sparklyR 连接仅使用 2 个 worker（每个节点上有 1 个 executor）。

我试过为 spark_connect 调用使用 config.yml 文件，包括设置 spark.executor.instances: 6 和 spark.num.executors: 6，但这并没有什么不同.我可以使用其他设置让 sparklyR 使用所有节点吗？我能否以某种方式将所有工作人员 IP 地址的列表传递给 spark_connect，以便它连接到所有工作人员？

我的设置如下： RStudio：1.0.136，闪闪发光R：0.5.3-9000， Spark 版本（集群上和本地）：2.0.0。

Answer 1

终于解决了！它是如此简单明了，我不敢相信我错过了它。

配置 (spark-defaults.conf) 文件具有以下设置：

spark.executor.cores: 5
spark.cores.max: 12

这当然意味着它不能启动超过 2 个（5 核）执行程序，因为整个应用程序允许的最大内核数是 12。

SparklyR 连接到独立 spark 集群，仅连接到 2/6 worker

SparklyR connection to standalone spark cluster only connecting to 2/6 workers

rstudio

apache-spark

sparklyr