HDP + ambari + yarn 节点标签和HDFS

HDP + ambari + yarn node lables and HDFS

我们有 Hadoop 集群(带 ambari 的 HDP 2.6.4 集群,有 5 个数据节点机器)

我们正在使用 Spark 流应用程序(Spark 2.1 运行 over Hortonworks 2.6.x)

目前的情况是所有数据节点机器上的 Spark Streaming 应用程序 运行s

也许有些人通过 yarn 节点标签知道我们可以仅在第一个 2 数据节点机器上启用 spark 流应用程序到 运行

因此,例如 - 我们在第一个 2 数据节点机器上配置了 yarn 节点标签,然后在其他 3 个数据节点机器上配置了 -节点机器 spark 应用程序不会 运行 因为 yarn 节点标签被禁用

我的问题是 - 是否有可能通过 yarn node labels 也可以禁用最后 3 个数据节点机器上的 HDFS, (为了避免在最后 3 个数据节点上复制任何 HDFS)

参考 - http://crazyadmins.com/configure-node-labels-on-yarn/

你可以decomission a datanode。如果你这样做,那么根据定义,它不是 HDFS 的一部分,这意味着你基本上是停止 HDFS 服务并将它们从集群中删除,这与限制哪些作业相同在它们上获取 运行(例如通过 YARN 节点标签)

节点标签控制哪个节点管理器 运行 代码,与数据节点没有直接关系。

您可以在 DataNode 之外安装 NodeManangers 运行ning,但这违背了使用 HDFS 的“将计算移动到数据”功能的目的,从而导致作业 运行 变慢