神经节:在我停止 hadoop datanode 后,神经节 remians 中的图形保持不变
ganglia: the graph in ganglia remians unchanged after I stop hadoop datanode
我使用 ganglia 来监控 hadoop。我选择指标"dfs.datanode.HeartbeatsAvgTime"来判断datanode(我指的是datanode服务,不是主机)是否宕机。
当数据节点正常工作时,"dfs.datanode.HeartbeatsAvgTime" 仍在变化。也就是说,图中的值是变化的。
看起来像这样:
但是在我停止datanode服务后,图中的值仍然没有变化。
看起来像这样:
第二张图中的值保持不变 unchanged.But 该值不是 0 或无穷大。所以,我无法判断datanode服务是up还是down。
其他指标处理同理
我检查了 ganglia 使用 "rrdtool fetch" 存储度量数据的 rrd。关于指标的值存储在*.rrd file.when 我检查文件,我发现在我停止datanode之后,关于指标的值也被更新了。但价值不变。
我在rrd的官方网站上阅读了关于rrd的参考资料。他们说,如果 rrd 在之前设置的间隔之间没有收到更新日期,rrd 在 *.rrd 文件中写入 UNKNOWN。
我认为引起问题的原因可能有两个。
- 当 gmetad 未收到指标时。它用旧值更新 rrd value.So 图形与旧值保持相同。
- 当 gmond 无法收集指标时,它会将旧值报告给 gmetad。
但是在ganglia的github源代码中我还没有真正找到任何证据。
那么你知道怎么解决图中的值不变的问题吗?或者您是否知道有关如何使用神经节监控 hadoop 集群的其他详细信息?
@DaveStephens @Lorin Hochstein
经过我的努力,我发现如果我们在hadoop中设置metric的dmax-metrics2.properties,当hadoop崩溃时,ganglia将收不到任何数据,return 不知道。 Ganglia 网站中的图表将消失。当 ganglia + nagios 时,nagios 也会 return UNKNOW 状态。足以判断hadoop是up还是down。
dmax表示在dmax时间后,hadoop会销毁metric。
我使用 ganglia 来监控 hadoop。我选择指标"dfs.datanode.HeartbeatsAvgTime"来判断datanode(我指的是datanode服务,不是主机)是否宕机。
当数据节点正常工作时,"dfs.datanode.HeartbeatsAvgTime" 仍在变化。也就是说,图中的值是变化的。
看起来像这样:
但是在我停止datanode服务后,图中的值仍然没有变化。
看起来像这样:
第二张图中的值保持不变 unchanged.But 该值不是 0 或无穷大。所以,我无法判断datanode服务是up还是down。
其他指标处理同理
我检查了 ganglia 使用 "rrdtool fetch" 存储度量数据的 rrd。关于指标的值存储在*.rrd file.when 我检查文件,我发现在我停止datanode之后,关于指标的值也被更新了。但价值不变。
我在rrd的官方网站上阅读了关于rrd的参考资料。他们说,如果 rrd 在之前设置的间隔之间没有收到更新日期,rrd 在 *.rrd 文件中写入 UNKNOWN。
我认为引起问题的原因可能有两个。
- 当 gmetad 未收到指标时。它用旧值更新 rrd value.So 图形与旧值保持相同。
- 当 gmond 无法收集指标时,它会将旧值报告给 gmetad。
但是在ganglia的github源代码中我还没有真正找到任何证据。
那么你知道怎么解决图中的值不变的问题吗?或者您是否知道有关如何使用神经节监控 hadoop 集群的其他详细信息?
@DaveStephens @Lorin Hochstein
经过我的努力,我发现如果我们在hadoop中设置metric的dmax-metrics2.properties,当hadoop崩溃时,ganglia将收不到任何数据,return 不知道。 Ganglia 网站中的图表将消失。当 ganglia + nagios 时,nagios 也会 return UNKNOW 状态。足以判断hadoop是up还是down。
dmax表示在dmax时间后,hadoop会销毁metric。