来自 ambari 的 Data-node Alive 不稳定
Data-node Alive from ambari isnt stable
我们有 ambari 集群版本 - 2.6.1 和 hadoop 版本 2.6.4
数据节点的数量是 - 10
从 ambari 仪表板我们可以看到 window 显示以下内容:
DataNodes Live
9/10
但几分钟后所有数据节点都还活着:
DataNodes Live
10/10
几分钟后我们又见面了
DataNodes Live
9/10
似乎 namenode 已经超过 interval 没有收到来自 datanode 的心跳消息,然后 datanode 将被标记为 "dead"
我们检查以下内容:
- 主机解析正常(DNS 正常)
- IP 的解析是 - 可以(DNS 可以)
- HDFS服务校验成功
- 每个数据节点都已启动(ps -ef | grep datanode | grep -v grep )
- 网络统计-anp | grep '0.0.0.0:50010' 端口正常
- systemctl status firewalld.service(防火墙正常关闭)
- sestatus SELinux 状态(禁用)
- MTU 配置为 9000(我们验证所有组件上的 9000 设置正确
我们还能做些什么来验证为什么 DataNode alive 不稳定?
我们将数据节点堆大小从默认值 - 2G 增加到 6G
从那时起,现在来自 ambari 仪表板的数据节点是稳定的
我们有 ambari 集群版本 - 2.6.1 和 hadoop 版本 2.6.4
数据节点的数量是 - 10
从 ambari 仪表板我们可以看到 window 显示以下内容:
DataNodes Live
9/10
但几分钟后所有数据节点都还活着:
DataNodes Live
10/10
几分钟后我们又见面了
DataNodes Live
9/10
似乎 namenode 已经超过 interval 没有收到来自 datanode 的心跳消息,然后 datanode 将被标记为 "dead"
我们检查以下内容:
- 主机解析正常(DNS 正常)
- IP 的解析是 - 可以(DNS 可以)
- HDFS服务校验成功
- 每个数据节点都已启动(ps -ef | grep datanode | grep -v grep )
- 网络统计-anp | grep '0.0.0.0:50010' 端口正常
- systemctl status firewalld.service(防火墙正常关闭)
- sestatus SELinux 状态(禁用)
- MTU 配置为 9000(我们验证所有组件上的 9000 设置正确
我们还能做些什么来验证为什么 DataNode alive 不稳定?
我们将数据节点堆大小从默认值 - 2G 增加到 6G 从那时起,现在来自 ambari 仪表板的数据节点是稳定的