【问题标题】:Prometheus Absent function普罗米修斯缺席函数
【发布时间】:2019-04-11 00:25:12
【问题描述】:

我想检查某个指标是否在 prometheus 5 分钟内不可用。

我正在使用缺席(K_KA_GCPP)并给出 5 分钟的阈值。但似乎我无法在某些标签(如 Site Id)上对缺少的功能进行分组。

如果指标不适用于所有 4 个站点 ID,则“缺席”有效。我想了解所有 4 个站点 ID 中的 1 个站点 ID 的指标是否不可用或不存在,并且我不想在查询中对站点 ID 标签进行硬编码,它应该是通用的。有什么办法可以做到吗?

【问题讨论】:

  • 你找到方法了吗?
  • 没有。我现在正在使用缺席和硬编码我的网站 ID。
  • 我也在做同样的事情,我发现在 up 上缺席的唯一其他方法是在 up{metric} == 0 上发出警报,启动警报的时间为 30 秒或更短第一次通话

标签: prometheus prometheus-alertmanager promql


【解决方案1】:

我可以通过这样做来实现这一点:

count(up{job="prometheus"} offset 1h) by (project) unless count(up{job="prometheus"} ) by (project)

如果该指标在过去 1 小时内缺失,则会触发警报。 您可以在 by 部分之后添加所需的任何标签(例如,这有助于更改)。

来源:Prometheus Alert for missing metrics and labels

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-01-22
    • 2017-09-03
    • 1970-01-01
    • 2022-10-17
    • 2022-12-02
    • 2022-12-17
    • 1970-01-01
    • 2021-07-20
    相关资源
    最近更新 更多