【发布时间】:2021-11-08 03:31:51
【问题描述】:
我们正在尝试使用新的(即非旧版)GCP 仪表板为我们的 kubernetes 集群设置 GKE 正常运行时间警报。类似的警报在 CPU/内存利用率方面工作正常,但正常运行时间有些奇怪。
下面显示的策略适用于我们的 prod 集群,并将滚动窗口设置为 10 分钟,并将计数应用为聚合函数。计数是正常运行时间分钟数。在右侧,我关闭了一项服务。您可以看到,这会导致逐步变化,从 10(完全上升)逐渐下降到零(在 10 分钟内完全下降)。当指标达到 0(即低于阈值 1)时,我们应该会收到警报。
但是,计数的值不会变为 0,而是在 UI 中显示为“-”。我认为这意味着 null 或什么?正如您在 step 函数中看到的那样,步数为 10,9,8....3,2,1,然后消失而不会变为 0。为什么计数不会变为零而是转到“-” on用户界面?指标描述本身将其显示为 Double,因此希望它变为 0...
我们是否有错误的指标,或者我们是否应该将阈值设置为低于 2 作为解决方法?或者我应该选择“Metric Absence”作为跟踪它的最佳方式?
【问题讨论】:
标签: google-cloud-platform alert metrics