如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量？

How to estimate amount of spark executor on a Hortonworks Hadoop cluster?

hadoop
hadoop-yarn
hortonworks-data-platform
apache-spark

我设置了一个 Hortonworks Hadoop 集群：

Hortonworks 版本为 2.3.2。
1 个 NameNode，1 个辅助 NameNode，10 个 DataNode
Spark 1.4.1 并部署在所有数据节点上。
YARN 已安装。

当我运行一个spark程序时，执行器只运行在4个节点上而不是整个数据节点上。

如何估算此类 Hadoop 集群上的 spark 执行器数量？

你请求的executor数量默认是4个，如果你想请求更多，需要在命令行调用--num-executors = x参数或者在配置中设置spark.executors.instances。更多细节在这里： https://spark.apache.org/docs/latest/running-on-yarn.html

因为Spark 运行 on Hortonworks Hadoop with YARN，每个Spark client都要部署YARN/node manager，YARN client。否则spark客户端不会被调度

实际执行者与节点管理器的最小数量和执行者数量有关。

如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量？

How to estimate amount of spark executor on a Hortonworks Hadoop cluster?

hadoop

hadoop-yarn

hortonworks-data-platform

apache-spark