hadoop 集群 + 任何禁用 spark 应用程序到特定数据节点上 运行 的方法

hadoop cluster + any way to disable spark application to run on specific data nodes

我们有 Hadoop 集群(HDP 2.6.5 带有 ambari 的集群,有 25 个数据节点机器)

我们正在使用 Spark Streaming 应用程序(spark 2.1 运行 在 Hortonworks 2.6.x 上)

目前的情况是所有数据节点机器上的 Spark Streaming 应用程序 运行s

但现在我们希望 Spark Streaming 应用程序 运行 仅在前 10 datanodes 台机器上

因此其他最后 15 datanodes 台机器将受到限制,Spark 应用程序将 运行 仅在前 10 datanodes 台机器上

这种情况可以通过 ambary 功能或其他方法来完成吗?

例如我们找到了 - https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/configuring_node_labels.html ,

http://crazyadmins.com/configure-node-labels-on-yarn/

但不确定 Node Labes 是否可以帮助我们

@Jessica 是的,你绝对走对了路。 Yarn Node Labels 和 Yarn Queues 是 Ambari 管理员控制团队级别访问整个 yarn 集群部分的方式。您可以从非常基础的非默认队列开始,或者非常深入地了解许多不同团队的许多队列。节点标签将其提升到另一个层次,允许您将队列和团队专门映射到节点。

这里是一个post spark 使用纱线队列的语法:

我试图找到这些文档的 2.6 版本,但找不到....自合并以来他们确实混淆了这些文档...

https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/ch_node_labels.html

https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/configuring_node_labels.html

您可能必须采取的实际步骤可能是两者的组合。我在 Ambari 工作时的典型经历 HDP/HDF.