CloudLab 中的从属虚拟机宕机
Slave VMs are down in CloudLab
我的三个从属虚拟机中有两个已关闭,我无法通过 SSH 连接它们。我们已经执行了硬重启,但它们仍然关闭。任何想法如何将它们带回或如何调试以找到原因。这是 jps
:
3542 RunJar
9920 SecondaryNameNode
10094 ResourceManager
10244 NodeManager
8677 DataNode
31634 Jps
8536 NameNode
这里还有一个细节:
ubuntu@anmol-vm1-new:~$ sudo netstat -atnp | grep 8020
tcp 0 0 10.0.1.190:8020 0.0.0.0:* LISTEN 8536/java
tcp 0 0 10.0.1.190:50957 10.0.1.190:8020 ESTABLISHED 8677/java
tcp 0 0 10.0.1.190:8020 10.0.1.190:50957 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:8020 10.0.1.193:46627 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:44300 10.0.1.190:8020 TIME_WAIT -
tcp 0 0 10.0.1.190:8020 10.0.1.190:44328 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:8020 10.0.1.193:44610 ESTABLISHED 8536/java
tcp6 0 0 10.0.1.190:44292 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44328 10.0.1.190:8020 ESTABLISHED 10244/java
tcp6 0 0 10.0.1.190:44252 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44247 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44287 10.0.1.190:8020 TIME_WAIT -
当我运行以下命令时:
hadoop fsck /
结果是:
The filesystem under path '/' is CORRUPT
这里有更多详细信息pastebin。
如果它们已关闭并且您无法通过 ssh 连接它们,则意味着您的文件系统可能已满。您必须使用 VM 控制台登录并清理文件系统,ssh 将不再起作用。
我的三个从属虚拟机中有两个已关闭,我无法通过 SSH 连接它们。我们已经执行了硬重启,但它们仍然关闭。任何想法如何将它们带回或如何调试以找到原因。这是 jps
:
3542 RunJar
9920 SecondaryNameNode
10094 ResourceManager
10244 NodeManager
8677 DataNode
31634 Jps
8536 NameNode
这里还有一个细节:
ubuntu@anmol-vm1-new:~$ sudo netstat -atnp | grep 8020
tcp 0 0 10.0.1.190:8020 0.0.0.0:* LISTEN 8536/java
tcp 0 0 10.0.1.190:50957 10.0.1.190:8020 ESTABLISHED 8677/java
tcp 0 0 10.0.1.190:8020 10.0.1.190:50957 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:8020 10.0.1.193:46627 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:44300 10.0.1.190:8020 TIME_WAIT -
tcp 0 0 10.0.1.190:8020 10.0.1.190:44328 ESTABLISHED 8536/java
tcp 0 0 10.0.1.190:8020 10.0.1.193:44610 ESTABLISHED 8536/java
tcp6 0 0 10.0.1.190:44292 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44328 10.0.1.190:8020 ESTABLISHED 10244/java
tcp6 0 0 10.0.1.190:44252 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44247 10.0.1.190:8020 TIME_WAIT -
tcp6 0 0 10.0.1.190:44287 10.0.1.190:8020 TIME_WAIT -
当我运行以下命令时:
hadoop fsck /
结果是:
The filesystem under path '/' is CORRUPT
这里有更多详细信息pastebin。
如果它们已关闭并且您无法通过 ssh 连接它们,则意味着您的文件系统可能已满。您必须使用 VM 控制台登录并清理文件系统,ssh 将不再起作用。