识别超出其限制的指标名称答案

【问题标题】：Identify metrics names that are exceeding their limits识别超出其限制的指标名称
【发布时间】：2023-03-13 08:20:01
【问题描述】：

我想在超出 AWS 限制时进行捕捉。

目前我使用https://github.com/jantman/awslimitchecker 导出指标，如下所示：

# HELP vpc_vpcs
# TYPE vpc_vpcs gauge
vpc_vpcs{region="us-east-1",type="limit"} 5.0
vpc_vpcs{region="us-east-1",type="current"} 6.0
# HELP vpc_virtual_private_gateways
# TYPE vpc_virtual_private_gateways gauge
vpc_virtual_private_gateways{region="us-east-1",type="limit"} 5.0
vpc_virtual_private_gateways{region="us-east-1",type="current"} 0.0

https://github.com/kaihendry/debugprom/blob/main/exportme/metrics.prom

我想提出一个 PromQL 查询和警报，以捕获所有超出其限制的指标名称（奖励：或将来使用predict_linear）。我试过求和，我试过像{job="node-exporter", type="current"} > {job="node-exporter", type="limit"} 这样的查询，但它们不起作用。

请问我错过了什么？

【问题讨论】：

标签： prometheus metrics promql prometheus-alertmanager

【解决方案1】：

您使用的是哪个版本的导出器？您提供的链接中的示例指标在主分支中如下所示：

# HELP aws_limit Usage limit once hit requires an AWS support request
# TYPE aws_limit gauge
aws_limit{region="us-east-1",type="vpcs"} 5
aws_limit{region="us-east-1",type="vpcs-gateway"} 5
# HELP aws_current Current usage level
# TYPE aws_current gauge
aws_current{region="us-east-1",type="vpcs"} 6
aws_current{region="us-east-1",type="vpcs-gateway"} 0

这使得查询变得非常容易，因为现在主题已经是一个标签，您不需要为您的警报捕获指标名称（基本上是__name__）。

所以警报表达式应该是：

aws_current >= on(type, region) (aws_limit * 0.8)

【讨论】：