如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量?
How to estimate amount of spark executor on a Hortonworks Hadoop cluster?
我设置了一个 Hortonworks Hadoop 集群:
- Hortonworks 版本为 2.3.2。
- 1 个 NameNode,1 个辅助 NameNode,10 个 DataNode
- Spark 1.4.1 并部署在所有数据节点上。
- YARN 已安装。
当我运行一个spark程序时,执行器只运行在4个节点上而不是整个数据节点上。
如何估算此类 Hadoop 集群上的 spark 执行器数量?
你请求的executor数量默认是4个,如果你想请求更多,需要在命令行调用--num-executors = x
参数或者在配置中设置spark.executors.instances
。更多细节在这里:
https://spark.apache.org/docs/latest/running-on-yarn.html
因为Spark 运行 on Hortonworks Hadoop with YARN,每个Spark client都要部署YARN/node manager,YARN client。否则spark客户端不会被调度
实际执行者与节点管理器的最小数量和执行者数量有关。
我设置了一个 Hortonworks Hadoop 集群:
- Hortonworks 版本为 2.3.2。
- 1 个 NameNode,1 个辅助 NameNode,10 个 DataNode
- Spark 1.4.1 并部署在所有数据节点上。
- YARN 已安装。
当我运行一个spark程序时,执行器只运行在4个节点上而不是整个数据节点上。
如何估算此类 Hadoop 集群上的 spark 执行器数量?
你请求的executor数量默认是4个,如果你想请求更多,需要在命令行调用--num-executors = x
参数或者在配置中设置spark.executors.instances
。更多细节在这里:
https://spark.apache.org/docs/latest/running-on-yarn.html
因为Spark 运行 on Hortonworks Hadoop with YARN,每个Spark client都要部署YARN/node manager,YARN client。否则spark客户端不会被调度
实际执行者与节点管理器的最小数量和执行者数量有关。