HDP + ambari + yarn 节点标签和HDFS

HDP + ambari + yarn node lables and HDFS

我们有 Hadoop 集群（带 ambari 的 HDP 2.6.4 集群，有 5 个数据节点机器）

我们正在使用 Spark 流应用程序（Spark 2.1 运行 over Hortonworks 2.6.x）

目前的情况是所有数据节点机器上的 Spark Streaming 应用程序运行s

也许有些人通过 yarn 节点标签知道我们可以仅在第一个 2 数据节点机器上启用 spark 流应用程序到运行

因此，例如 - 我们在第一个 2 数据节点机器上配置了 yarn 节点标签，然后在其他 3 个数据节点机器上配置了 -节点机器 spark 应用程序不会运行因为 yarn 节点标签被禁用

我的问题是 - 是否有可能通过 yarn node labels 也可以禁用最后 3 个数据节点机器上的 HDFS，（为了避免在最后 3 个数据节点上复制任何 HDFS）

你可以decomission a datanode。如果你这样做，那么根据定义，它不是 HDFS 的一部分，这意味着你基本上是停止 HDFS 服务并将它们从集群中删除，这与限制哪些作业不相同在它们上获取运行（例如通过 YARN 节点标签）

节点标签控制哪个节点管理器运行代码，与数据节点没有直接关系。

您可以在 DataNode 之外安装 NodeManangers 运行ning，但这违背了使用 HDFS 的“将计算移动到数据”功能的目的，从而导致作业运行变慢