普罗米修斯警报中缺少标签答案

【问题标题】：Missing labels in prometheus alerts普罗米修斯警报中缺少标签
【发布时间】：2021-07-20 05:42:17
【问题描述】：

我在使用 Prometheus 警报规则时遇到问题。我设置了各种 cAdvisor 特定警报，例如：

- alert: ContainerCpuUsage
  expr: (sum(rate(container_cpu_usage_seconds_total[3m])) BY (instance, name) * 100) > 80
  for: 2m
  labels:
    severity: warning
  annotations:
    title: 'Container CPU usage (instance {{ $labels.instance }})'
    description: 'Container CPU usage is above 80%\n  VALUE = {{ $value }}\n  LABELS: {{ $labels }}'

满足条件时，我可以在 Prometheus 的“警报”选项卡中看到警报，但是缺少一些标签，因此警报管理器无法通过 Slack 发送通知。具体来说，我将自定义“env”标签附加到每个目标：

 {
  "targets": [
   "localhost:8080",
  ],
  "labels": {
   "job": "cadvisor",
   "env": "production",
   "__metrics_path__": "/metrics"
  }
 }

但是当基于 cadvisor 指标的警报触发时，标签是：警报名称、实例和严重性 - 没有工作标签，没有环境标签。来自其他出口商（例如节点出口商）的所有其他警报都可以正常工作并且标签存在。

【问题讨论】：

标签： monitoring prometheus prometheus-alertmanager cadvisor

【解决方案1】：

这是由于您使用了sum 函数；它收集了所有存在的时间序列并将它们添加到摸索BY (instance, name)。如果您在 Prometheus 中运行相同的查询，您会看到 sum 只留下了分组标签：

{instance="foo", name="bar"}    135.38819037447163

avg、max、min 等其他聚合方法以相同的方式工作。要恢复标签，只需将env 添加到分组列表中：by (instance, name, env)。

【讨论】：

谢谢！我已将我的查询修改为：(sum(rate(container_cpu_usage_seconds_total{name!=""}[3m])) BY (instance, name,env) * 100) > 80，它看起来工作正常。这个查询好吗？老实说，我并不完全理解这一点：“但这样你将获得每个环境每个名称的每个实例的 CPU 利用率。” - 为什么这是个问题？
假设您在一台机器（实例）上有一个带有env=prod 的容器和另一个带有env=dev 的容器。通过运行查询，您将获得env=dev 和env=prod 的不同CPU 利用率。由于您这样做是为了只有 env=prod 可以触发警报，所以如果 env=dev 占用了机器上的所有 CPU 资源，您将不会收到通知。换句话说，机器 CPU 利用率将在各种env 标签值之间进行分配。这是否是一个问题取决于事情在你的环境中是如何运行的，如果在生产机器上除了prod 之外没有其他env，那么这没关系。
感谢您解释这个问题，现在一切都清楚了。在我的设置中，不同环境中的容器是完全分开的，所以谢天谢地，这没关系！但是，如果此设置发生更改，我会牢记这一点。再次感谢您对此进行彻底的解释！
哦还有一件事@anemyte，此环境标签附加到特定目标（即cadvisor）而不是容器本身。如果我运行两个具有不同 env 标签值的 cadvisor 容器，这将成为一个问题。至少我是这么理解的。
@dywan666 如果它在生产实例的作业配置中明确定义，那么我想应该没问题。