来自 ambari 的 Data-node Alive 不稳定

Data-node Alive from ambari isnt stable

我们有 ambari 集群版本 - 2.6.1 和 hadoop 版本 2.6.4

数据节点的数量是 - 10

从 ambari 仪表板我们可以看到 window 显示以下内容:

   DataNodes Live

   9/10

但几分钟后所有数据节点都还活着:

   DataNodes Live

   10/10

几分钟后我们又见面了

   DataNodes Live

   9/10

似乎 namenode 已经超过 interval 没有收到来自 datanode 的心跳消息,然后 datanode 将被标记为 "dead"

我们检查以下内容:

  1. 主机解析正常(DNS 正常)
  2. IP 的解析是 - 可以(DNS 可以)
  3. HDFS服务校验成功
  4. 每个数据节点都已启动(ps -ef | grep datanode | grep -v grep )
  5. 网络统计-anp | grep '0.0.0.0:50010' 端口正常
  6. systemctl status firewalld.service(防火墙正常关闭)
  7. sestatus SELinux 状态(禁用)
  8. MTU 配置为 9000(我们验证所有组件上的 9000 设置正确

我们还能做些什么来验证为什么 DataNode alive 不稳定?

我们将数据节点堆大小从默认值 - 2G 增加到 6G 从那时起,现在来自 ambari 仪表板的数据节点是稳定的