CloudLab 中的从属虚拟机宕机

Question

我的三个从属虚拟机中有两个已关闭，我无法通过 SSH 连接它们。我们已经执行了硬重启，但它们仍然关闭。任何想法如何将它们带回或如何调试以找到原因。这是 jps:

3542 RunJar
9920 SecondaryNameNode
10094 ResourceManager
10244 NodeManager
8677 DataNode
31634 Jps
8536 NameNode

这里还有一个细节：

ubuntu@anmol-vm1-new:~$ sudo netstat -atnp | grep 8020 
tcp        0      0 10.0.1.190:8020         0.0.0.0:*               LISTEN      8536/java       
tcp        0      0 10.0.1.190:50957        10.0.1.190:8020         ESTABLISHED 8677/java       
tcp        0      0 10.0.1.190:8020         10.0.1.190:50957        ESTABLISHED 8536/java       
tcp        0      0 10.0.1.190:8020         10.0.1.193:46627        ESTABLISHED 8536/java       
tcp        0      0 10.0.1.190:44300        10.0.1.190:8020         TIME_WAIT   -               
tcp        0      0 10.0.1.190:8020         10.0.1.190:44328        ESTABLISHED 8536/java       
tcp        0      0 10.0.1.190:8020         10.0.1.193:44610        ESTABLISHED 8536/java       
tcp6       0      0 10.0.1.190:44292        10.0.1.190:8020         TIME_WAIT   -               
tcp6       0      0 10.0.1.190:44328        10.0.1.190:8020         ESTABLISHED 10244/java      
tcp6       0      0 10.0.1.190:44252        10.0.1.190:8020         TIME_WAIT   -               
tcp6       0      0 10.0.1.190:44247        10.0.1.190:8020         TIME_WAIT   -               
tcp6       0      0 10.0.1.190:44287        10.0.1.190:8020         TIME_WAIT   -

当我运行以下命令时：

hadoop fsck /

结果是：

The filesystem under path '/' is CORRUPT

这里有更多详细信息pastebin。

Answer 1

如果它们已关闭并且您无法通过 ssh 连接它们，则意味着您的文件系统可能已满。您必须使用 VM 控制台登录并清理文件系统，ssh 将不再起作用。

CloudLab 中的从属虚拟机宕机

Slave VMs are down in CloudLab

filesystems

ssh

hadoop

hdfs

fsck