Hortonworks数据平台:高负载导致节点重启
Hortonworks Data Platform: High load causes node restart
我已经使用 Hortonworks Data Platform 2.5 设置了一个 Hadoop 集群。我正在使用 1 个主节点和 5 个从(工作)节点。
每隔几天,我的一个(或多个)工作节点就会出现高负载,并且似乎会自动重启整个 CentOS 操作系统。重新启动后,Hadoop 组件不再 运行,必须通过 Amabri 管理手动重新启动 UI。
这里是"crashed"节点的截图(高负载值~4小时前重启):
这里是另一个 "healthy" 工作节点的屏幕截图(所有其他工作节点都具有相似的值):
节点崩溃在5个工作节点之间交替,主节点似乎运行没有问题。
什么可能导致这个问题?这些高负载值从何而来?
这似乎是一个内核问题,因为日志文件(例如 /var/spool/abrt/vmcore-127.0.0.1-2017-06-26-12:27:34/backtrace
)说的是
Version: 3.10.0-327.el7.x86_64
BUG: unable to handle kernel NULL pointer dereference at 00000000000001a0
之后运行一个sudo yum update
我有内核版本
[root@myhost ~]# uname -r
3.10.0-514.26.2.el7.x86_64
自从操作系统更新后,该问题不再出现。我会观察问题并在必要时提供反馈。
我已经使用 Hortonworks Data Platform 2.5 设置了一个 Hadoop 集群。我正在使用 1 个主节点和 5 个从(工作)节点。
每隔几天,我的一个(或多个)工作节点就会出现高负载,并且似乎会自动重启整个 CentOS 操作系统。重新启动后,Hadoop 组件不再 运行,必须通过 Amabri 管理手动重新启动 UI。
这里是"crashed"节点的截图(高负载值~4小时前重启):
这里是另一个 "healthy" 工作节点的屏幕截图(所有其他工作节点都具有相似的值):
节点崩溃在5个工作节点之间交替,主节点似乎运行没有问题。
什么可能导致这个问题?这些高负载值从何而来?
这似乎是一个内核问题,因为日志文件(例如 /var/spool/abrt/vmcore-127.0.0.1-2017-06-26-12:27:34/backtrace
)说的是
Version: 3.10.0-327.el7.x86_64
BUG: unable to handle kernel NULL pointer dereference at 00000000000001a0
之后运行一个sudo yum update
我有内核版本
[root@myhost ~]# uname -r
3.10.0-514.26.2.el7.x86_64
自从操作系统更新后,该问题不再出现。我会观察问题并在必要时提供反馈。