不健康的 EMR 节点 "local-dirs are bad: /mnt/yarn,/mnt3/yarn"

Question

我有一个带有 1 个主节点和 8 个 Spot 节点的 spark EMR 集群。今天所有节点都死了，而运行一个工作，并且 spark-shell 之后也不可评估。

在显示错误的 hadoop 控制台中单击 'Unhealthy Nodes' 2/4 local-dirs are bad: /mnt/yarn,/mnt3/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers

这似乎与中的磁盘 space 问题有关，所以我 修改了 yarn-site.xml 描述

<property>
   <name>yarn.nodemanager.disk-health-checker.enable</name>
   <value>false</value>
</property>

和重新启动相关服务，如How to restart Spark service in EMR after changing conf settings?中所述。但是节点并没有恢复活力。

sudo stop hadoop-yarn-resourcemanager  
sudo start hadoop-yarn-resourcemanager 

sudo stop spark-history-server  
sudo start spark-history-server  

sudo status hadoop-yarn-resourcemanager
sudo status spark-history-server

AWS 控制台

Hadoop 控制台

来自死节点

Answer 1

你有终止保护吗？如果它在节点上，则无法自动终止和重新启动 - 请参阅 https://docs.aws.amazon.com/emr/latest/ManagementGuide/UsingEMR_TerminationProtection.html

不健康的 EMR 节点 "local-dirs are bad: /mnt/yarn,/mnt3/yarn"

Unhealthy EMR nodes "local-dirs are bad: /mnt/yarn,/mnt3/yarn"

hadoop

amazon-emr

apache-spark