【问题标题】:Disable alerting for a specific hosts, while alerting for all the others对特定主机禁用警报,同时对所有其他主机发出警报
【发布时间】:2019-12-28 05:37:50
【问题描述】:

我有数百台主机向 prometheus 服务器报告。我每台主机有很多出口商。我希望能够列出我不想发出警报的主机列表。我仍然需要对这些主机进行 prometheus 监控。

我尝试匹配没有接收器的路线。它不起作用。我究竟做错了什么?或者,我应该怎么做?

我的路线规则。我希望第一个匹配匹配可忽略的实例并停止解析。我仍然收到警报。 :-(

route:
  receiver: 'team-ops-mails'
  group_by: ['alertname', 'cluster']
  group_wait: 30s
  group_interval: 2m
  repeat_interval: 2h 
  routes:
  - match_re:
      instance: "int-pg-01:.*"
    continue: false
  - match:
      nopage: true
    receiver: team-mattermost
    repeat_interval: 24h
  - match:
      severity: hwerror
    receiver: hwerror-receiver
    repeat_interval: 24h
  - match:
      role: worker
    receiver: team-mattermost 
  - match:
      role: ven-entrance
    receiver: team-mattermost 

【问题讨论】:

    标签: prometheus prometheus-alertmanager


    【解决方案1】:

    Alerting rules 允许您根据 prometheus 表达式语言定义更改条件。

    示例警报规则:

    groups:
    - name: example
      rules:
      - alert: HighRequestLatency
        expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.5
        for: 10m
        labels:
          severity: page
        annotations:
          summary: High request latency
    

    解决问题的一种可能方法是,在指标中添加一个额外的标签,例如 enableAlert。在定义警报规则时,您可以通过定义expr 来忽略某些主机的触发警报,如下所示:

    - name: example
      rules:
      - alert: DemoAlert
        expr: <metric-name> {... ..., enableAlert = "true"} > ref_value
    

    为那些您不想触发警报的实例设置enableAlert = "false"

    【讨论】:

    • 您是说在 prometheus.yml 目标元素中添加 enableAlert 吗?这仍然意味着在 43 个位置(唯一的 job_names)中为每个主机至少编辑两行,并编辑所有 alerting_rules(超过 50 个)。我仍然想知道为什么我的 match_re with continue: false 不会停止匹配。 prometheus.io/docs/alerting/configuration/#route 似乎声明解析将停止
    • 不,你不需要到处改变它。您可以使用relabel_configs 为指标添加标签。您只需要一个正则表达式来匹配您不想从中获取警报的所有主机。或者您可以简单地从服务器端发送此标签 (enableAlerlt)。
    • @KamolHasan 我在哪里可以看到表达式中的冒号job:request_latency_seconds:mean5m
    猜你喜欢
    • 2011-07-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-20
    • 2013-10-04
    • 1970-01-01
    • 2015-03-22
    相关资源
    最近更新 更多