【问题标题】:ganglia generated too much rrd files & cannot automatic deletedganglia 生成的 rrd 文件过多,无法自动删除
【发布时间】:2016-01-20 06:50:46
【问题描述】:

我正在使用 ganglia 3.7.2 来监控 hadoop(2.6.0-cdh5.4.0) 集群(7 个服务器),并且我在 hadoop 和 hbase 上启用了 metrics2; 我在一台服务器上安装了 gmetad,在其他服务器上安装了 gmond 和 yum ; 刚开始,monitor运行很好,在ganglia网页上可以看到正常的monitor数据,但是问题是: 几个小时后,rrd文件太多,只好为路径/var/lib/ganglia/rrds做符号链接,几天后,rrd文件占用了将近1TB的磁盘空间,网页无法显示查看监控数据,有人知道如何解决这个问题吗?

gmond 配置(使用单通道):

globals {
daemonize = yes
setuid = yes
user = ganglia
debug_level = 0
max_udp_msg_len = 1472
mute = no
deaf = no
allow_extra_data = yes
host_dmax = 86400 /*secs. Expires (removes from web interface) hosts in 1 day */
host_tmax = 20 /*secs */
cleanup_threshold = 300 /*secs */
gexec = no
send_metadata_interval = 60 /*secs */
}

【问题讨论】:

  • 有人能回答这个问题吗?

标签: hadoop ganglia


【解决方案1】:

解决了这个问题,我做了以下事情:

  1. 将默认 rrd 规则更改为:
    RRA "RRA:AVERAGE:0.5:1:256" "RRA:AVERAGE:0.5:24:512" "RRA:AVERAGE:0.5:168:512" "RRA:AVERAGE:0.5:672:512" "RRA:AVERAGE: 0.5:5760:1024"

  2. 关闭了hadoop metric2的datanode.sink和nodemanager.sink;

参考:http://www.perzl.org/ganglia/bestpractices.html##Best_Practices_Ganglia_Sampling

【讨论】:

    猜你喜欢
    • 2019-03-05
    • 1970-01-01
    • 1970-01-01
    • 2018-04-15
    • 2018-08-27
    • 1970-01-01
    • 2012-06-09
    • 2019-08-17
    • 2013-03-08
    相关资源
    最近更新 更多