不健康的 EMR 节点 "local-dirs are bad: /mnt/yarn,/mnt3/yarn"
Unhealthy EMR nodes "local-dirs are bad: /mnt/yarn,/mnt3/yarn"
我有一个带有 1 个主节点和 8 个 Spot 节点的 spark EMR 集群。今天所有节点都死了,而 运行 一个工作,并且 spark-shell 之后也不可评估。
在显示错误的 hadoop 控制台中单击 'Unhealthy Nodes' 2/4 local-dirs are bad: /mnt/yarn,/mnt3/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers
这似乎与 中的磁盘 space 问题有关,所以我 修改了 yarn-site.xml 描述
<property>
<name>yarn.nodemanager.disk-health-checker.enable</name>
<value>false</value>
</property>
和重新启动相关服务,如How to restart Spark service in EMR after changing conf settings?中所述。但是节点并没有恢复活力。
sudo stop hadoop-yarn-resourcemanager
sudo start hadoop-yarn-resourcemanager
sudo stop spark-history-server
sudo start spark-history-server
sudo status hadoop-yarn-resourcemanager
sudo status spark-history-server
AWS 控制台
Hadoop 控制台
来自死节点
你有终止保护吗?如果它在节点上,则无法自动终止和重新启动 - 请参阅 https://docs.aws.amazon.com/emr/latest/ManagementGuide/UsingEMR_TerminationProtection.html
我有一个带有 1 个主节点和 8 个 Spot 节点的 spark EMR 集群。今天所有节点都死了,而 运行 一个工作,并且 spark-shell 之后也不可评估。
在显示错误的 hadoop 控制台中单击 'Unhealthy Nodes' 2/4 local-dirs are bad: /mnt/yarn,/mnt3/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers
这似乎与
<property>
<name>yarn.nodemanager.disk-health-checker.enable</name>
<value>false</value>
</property>
和重新启动相关服务,如How to restart Spark service in EMR after changing conf settings?中所述。但是节点并没有恢复活力。
sudo stop hadoop-yarn-resourcemanager
sudo start hadoop-yarn-resourcemanager
sudo stop spark-history-server
sudo start spark-history-server
sudo status hadoop-yarn-resourcemanager
sudo status spark-history-server
AWS 控制台
Hadoop 控制台
来自死节点
你有终止保护吗?如果它在节点上,则无法自动终止和重新启动 - 请参阅 https://docs.aws.amazon.com/emr/latest/ManagementGuide/UsingEMR_TerminationProtection.html