YARN UNHEALTHY 节点

YARN UNHEALTHY nodes

在我们 80% 满的 YARN 集群中,我们看到一些 yarn nodemanager 被标记为不健康。在深入研究日志后,我发现它是因为数据目录的磁盘 space 已满 90%。出现以下错误

2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: Node hdp009.abc.com:8041 reported UNHEALTHY with details: 4/4 local-dirs are bad: /data3/yarn/nm,/data2/yarn/nm,/data4/yarn/nm,/data1/yarn/nm;
2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: hdp009.abc.com:8041 Node Transitioned from RUNNING to UNHEALTHY

我想了解 yarn 如何标记节点不健康以及是否有任何方法可以更改阈值?

谢谢

尝试将 属性 yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 添加到 yarn-site.xml。此 属性 指定允许的最大磁盘利用率 space 百分比,之后磁盘将被标记为坏的。值的范围可以从 0.0 到 100.0。

yarn-default.xml

强制到健康状态 例如:

<?xml version="1.0"?>
<configuration>    
  <property>
     <name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name>
     <value>0.0</value>
  </property>
  <property>
     <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
     <value>100.0</value>
  </property>
</configuration>