【发布时间】:2020-07-14 16:32:04
【问题描述】:
我们正在使用 Grafana 来监控某些事件和火灾警报。数据存储在 Prometheus 中(但我们没有使用 Prometheus 警报管理器)。
昨晚,我们的一个指标出现问题,我们目前没有警报。我想添加一个,但我正在努力确定添加的最佳方法。
在这种情况下,该指标的 Y 轴非常低,并且一夜之间(图表左侧的 02:00-07:00)您可以看到该指标下降到接近于零。
我们想在晚上 8 点检测右侧的急剧下降。我们在晚上 9 点左右检测到下降到完全为零(平线),但我想确定突然下降。
我们的普罗米修斯查询是:
sum(rate({__name__=~"metric_name_.+"}[1m])) by (grouping)
我尝试过查看以下内容:
sum(increase({__name__=~"metric_name_.+"}[1m])) by (grouping)
但总的来说,它们最终都会得到与下图相似的图表,但在 Y 轴尺度上存在差异,因此很难区分“接近零和安静”和“接近零”,因为指标有掉下悬崖”。
我们可以使用 Grafana 和 Prometheus 设置的哪种组合来有效地识别这种变化?
【问题讨论】:
标签: prometheus grafana