【问题标题】:Identify metrics names that are exceeding their limits识别超出其限制的指标名称
【发布时间】:2023-03-13 08:20:01
【问题描述】:

我想在超出 AWS 限制时进行捕捉。

目前我使用https://github.com/jantman/awslimitchecker 导出指标,如下所示:

# HELP vpc_vpcs
# TYPE vpc_vpcs gauge
vpc_vpcs{region="us-east-1",type="limit"} 5.0
vpc_vpcs{region="us-east-1",type="current"} 6.0
# HELP vpc_virtual_private_gateways
# TYPE vpc_virtual_private_gateways gauge
vpc_virtual_private_gateways{region="us-east-1",type="limit"} 5.0
vpc_virtual_private_gateways{region="us-east-1",type="current"} 0.0

https://github.com/kaihendry/debugprom/blob/main/exportme/metrics.prom

我想提出一个 PromQL 查询和警报,以捕获所有超出其限制的指标名称(奖励:或将来使用predict_linear)。我试过求和,我试过像{job="node-exporter", type="current"} > {job="node-exporter", type="limit"} 这样的查询,但它们不起作用。

请问我错过了什么?

【问题讨论】:

    标签: prometheus metrics promql prometheus-alertmanager


    【解决方案1】:

    您使用的是哪个版本的导出器?您提供的链接中的示例指标在主分支中如下所示:

    # HELP aws_limit Usage limit once hit requires an AWS support request
    # TYPE aws_limit gauge
    aws_limit{region="us-east-1",type="vpcs"} 5
    aws_limit{region="us-east-1",type="vpcs-gateway"} 5
    # HELP aws_current Current usage level
    # TYPE aws_current gauge
    aws_current{region="us-east-1",type="vpcs"} 6
    aws_current{region="us-east-1",type="vpcs-gateway"} 0
    

    这使得查询变得非常容易,因为现在主题已经是一个标签,您不需要为您的警报捕获指标名称(基本上是__name__)。

    所以警报表达式应该是:

    aws_current >= on(type, region) (aws_limit * 0.8)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-05-10
      • 1970-01-01
      • 2022-11-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多