MasterNode 如何融入 Spark 集群?

How does a MasterNode fit into a Spark cluster?

我对如何使用 YARN 作为资源管理器为工作负载设置我的 Spark 配置感到有点困惑。我现在已经启动了一个小型集群,其中包含 1 个主节点和 2 个核心节点。

计算执行者数量时是否包括主节点?

我是否为每个节点留出 1 个核心来负责 Yarn 管理?

我是否应该为 Spark 配置中的任何特定内容指定主节点?

  1. 计算执行者数量时不应考虑主节点
  2. 每个节点实际上是带有操作系统的EC2实例,因此您必须为系统任务和纱线代理留出1个或多个核心
  3. 主节点可用于运行 spark 驱动程序。为此,通过将参数 --master yarn --deploy-mode client 添加到 spark-submit 命令,从主节点以客户端模式启动 EMR 集群。请记住以下几点:

    Cluster mode allows you to submit work using S3 URIs. Client mode requires that you put the application in the local file system on the cluster master node

要完成所有准备工作(将库、脚本等复制到主节点),您可以设置一个单独的步骤,然后 运行 spark-submit --master yarn --deploy-mode client 命令作为下一步。