ganglia 生成的 rrd 文件过多，无法自动删除

Question

我正在使用 ganglia 3.7.2 来监控 hadoop(2.6.0-cdh5.4.0) 集群（7 个服务器），并且我在 hadoop 和 hbase 上启用了 metrics2；我在一台服务器上安装了 gmetad，在其他服务器上安装了 gmond ；一开始monitor运行的很好，在ganglia网页上可以看到正常的monitor数据，但是问题是：几个小时后，rrd文件太多了，所以我不得不为路径/var/lib/ganglia/rrds制作符号link，几天后，rrd文件占用了将近1TB的磁盘space，网页无法显示监控数据，有人知道如何解决这个问题吗？

gmond 配置（使用单通道）：

globals {
daemonize = yes
setuid = yes
user = ganglia
debug_level = 0
max_udp_msg_len = 1472
mute = no
deaf = no
allow_extra_data = yes
host_dmax = 86400 /*secs. Expires (removes from web interface) hosts in 1 day */
host_tmax = 20 /*secs */
cleanup_threshold = 300 /*secs */
gexec = no
send_metadata_interval = 60 /*secs */
}

Answer 1

解决了这个问题，我做了以下事情：

将默认 rrd 规则更改为：
RRAs "RRA:AVERAGE:0.5:1:256" "RRA:AVERAGE:0.5:24:512" "RRA:AVERAGE:0.5:168:512" "RRA:AVERAGE:0.5:672:512" "RRA:AVERAGE:0.5:5760:1024"
关闭hadoop metric2的datanode.sink和nodemanager.sink；

参考：http://www.perzl.org/ganglia/bestpractices.html##Best_Practices_Ganglia_Sampling

ganglia 生成的 rrd 文件过多，无法自动删除

ganglia generated too much rrd files & cannot automatic deleted

hadoop

ganglia