HDP + ambari + yarn 节点标签和HDFS
HDP + ambari + yarn node lables and HDFS
我们有 Hadoop 集群(带 ambari 的 HDP 2.6.4 集群,有 5 个数据节点机器)
我们正在使用 Spark 流应用程序(Spark 2.1 运行 over Hortonworks 2.6.x)
目前的情况是所有数据节点机器上的 Spark Streaming 应用程序 运行s
也许有些人通过 yarn 节点标签知道我们可以仅在第一个 2 数据节点机器上启用 spark 流应用程序到 运行
因此,例如 - 我们在第一个 2 数据节点机器上配置了 yarn 节点标签,然后在其他 3 个数据节点机器上配置了 -节点机器 spark 应用程序不会 运行 因为 yarn 节点标签被禁用
我的问题是 - 是否有可能通过 yarn node labels 也可以禁用最后 3 个数据节点机器上的 HDFS, (为了避免在最后 3 个数据节点上复制任何 HDFS)
你可以decomission a datanode。如果你这样做,那么根据定义,它不是 HDFS 的一部分,这意味着你基本上是停止 HDFS 服务并将它们从集群中删除,这与限制哪些作业不相同在它们上获取 运行(例如通过 YARN 节点标签)
节点标签控制哪个节点管理器 运行 代码,与数据节点没有直接关系。
您可以在 DataNode 之外安装 NodeManangers 运行ning,但这违背了使用 HDFS 的“将计算移动到数据”功能的目的,从而导致作业 运行 变慢
我们有 Hadoop 集群(带 ambari 的 HDP 2.6.4 集群,有 5 个数据节点机器)
我们正在使用 Spark 流应用程序(Spark 2.1 运行 over Hortonworks 2.6.x)
目前的情况是所有数据节点机器上的 Spark Streaming 应用程序 运行s
也许有些人通过 yarn 节点标签知道我们可以仅在第一个 2 数据节点机器上启用 spark 流应用程序到 运行
因此,例如 - 我们在第一个 2 数据节点机器上配置了 yarn 节点标签,然后在其他 3 个数据节点机器上配置了 -节点机器 spark 应用程序不会 运行 因为 yarn 节点标签被禁用
我的问题是 - 是否有可能通过 yarn node labels 也可以禁用最后 3 个数据节点机器上的 HDFS, (为了避免在最后 3 个数据节点上复制任何 HDFS)
你可以decomission a datanode。如果你这样做,那么根据定义,它不是 HDFS 的一部分,这意味着你基本上是停止 HDFS 服务并将它们从集群中删除,这与限制哪些作业不相同在它们上获取 运行(例如通过 YARN 节点标签)
节点标签控制哪个节点管理器 运行 代码,与数据节点没有直接关系。
您可以在 DataNode 之外安装 NodeManangers 运行ning,但这违背了使用 HDFS 的“将计算移动到数据”功能的目的,从而导致作业 运行 变慢