Google Cloud Dataproc - 通过 Spark 提交 Spark 作业

Google Cloud Dataproc - Submit Spark Jobs Via Spark

有没有办法从 Scala 代码中将 Spark 作业提交到 Google Cloud Dataproc?

  val Config = new SparkConf()
    .setMaster("...")

主 URI 应该是什么样的?

应设置哪些键值对以使用 API 密钥或密钥对进行身份验证?

在这种情况下,我强烈推荐一种替代方法。由于以下几个原因,这种类型的连接尚未经过测试或推荐:

  1. 连接集群需要开启防火墙端口
  2. 除非您使用隧道,否则您的数据可能会暴露
  3. 默认情况下不启用身份验证

通过 SSH 连接到主节点(名为 cluster-name-m 的节点)是否无法启动? SSH into the master node 直接使用 Spark 非常简单