【发布时间】:2021-11-04 21:18:52
【问题描述】:
我在 prometheus 中有作业失败警报,它会在 2 小时后自行解决我收到警报实际上没有解决的警报。普罗米修斯是怎么解决的?请注意,这只发生在此职位提醒中。
工作提醒:
- alert: Failed Job Status
expr: increase(kube_job_status_failed[30m]) > 0
for: 1m
labels:
severity: warning
annotations:
identifier: '{{ $labels.namespace }} {{ $labels.job_name }}'
description: '{{ $labels.namespace }} - {{ $labels.job_name }} Failed'
警报示例:
At 3:01 pm
[FIRING:1] Failed Job Status @ <environment-name> <job-name>
<environment-name> - <job-name> Failed
At 5:01 pm
[RESOLVED]
Alerts Resolved:
- <environment-name> - <job-name>: <environment-name> - <job-name> Failed
这是相关的 pod,因为可以看出似乎没有任何问题得到解决。
提前感谢您的帮助!
【问题讨论】:
-
实际上没有解决是什么意思?工作失败是否继续发生?从截图看不像
-
@JasonS 我指的是
job4、job5和job6。由于其他更改,其他作业已成功运行。这些都是失败的。 -
我应该不会收到关于 job4、job5 和 job6 的任何已解决警报吗?我错了吗? @JasonS
标签: kubernetes prometheus prometheus-alertmanager