【问题标题】:Ganglia - gmetad - process is getting terminated by SIGSEGVGanglia - gmetad - 进程被 SIGSEGV 终止
【发布时间】:2016-10-20 18:46:25
【问题描述】:

最近几天我开始看到这个问题。 Ganglia gemtad 进程在 SIGSEGV (segfault) 开始后 5 分钟内终止

自过去几个月以来一直保持稳定。所以不确定发生了什么变化。

Version - gmetad 3.7.1

我没有在 /var/log/messages/var/log/secure 中看到任何核心转储或任何特定于 gmetad 的内容。

此事件发生时的系统快照(从顶部开始)

load average: 1.97, 0.99, 0.42

内存看起来还不错

 free -m
             total       used       free     shared    buffers     cached
Mem:          7989       3624       4364          0        333       2562
-/+ buffers/cache:        728       7260
Swap:         4095          0       4095

我有一个分叉和监视 gmetad 的超级进程 -

这是主管日志

2016-10-20 14:34:55,707 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:55,707 INFO received SIGCLD indicating a child quit
2016-10-20 14:34:57,712 INFO spawned: 'gmetad' with pid 24561
2016-10-20 14:34:59,929 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:59,929 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:02,932 INFO spawned: 'gmetad' with pid 24593
2016-10-20 14:35:04,897 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:04,897 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:08,903 INFO spawned: 'gmetad' with pid 24618
2016-10-20 14:35:11,257 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:11,257 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:12,257 INFO gave up: gmetad entered FATAL state, too many start retries too quickly

有没有人特别遇到过 gmetad 的这种问题? 感谢任何指针。

【问题讨论】:

    标签: segmentation-fault ganglia gmetad


    【解决方案1】:

    我能够确定问题并解决。

    一些关键步骤/发现 -

    1. 在 gmetad.conf 中将 'debug_level' 更改为 > 1 以在前台运行 gmetaa 并输出详细的日志记录它的工作。
    2. 我发现 gmetad 进程在完全相同的时间点被杀死 - 当它试图处理特定数据源的特定节点的文件时。
    3. 您可以注释掉 gmetad.conf 中的所有其他“data_source”,并尝试找出哪个 data_source-> 节点有问题。
    4. 找出有问题的节点后,我只是删除了 /path/to/rrd/node_dir/file_with_issue 或整个目录本身。 (需要找到更好的方法,因为这是数据丢失)
    5. 改回 debug_level 并重新启动 gmetad!

    在我的例子中,要确定一个文件名 - 'part_max_used.rrd' 是 /path/to/ganglia/rrds/node_name 下的文件名是 SIGSEGV 的根本原因

    希望这会有所帮助 -)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多