【问题标题】:Alert if there are no logs from a node如果节点没有日志,则发出警报
【发布时间】:2019-08-29 15:01:02
【问题描述】:

在我的 Kubernetes 集群中,我有 Prometheus、Grafana 用于监控堆栈和 EFK 堆栈用于日志。

我创建了一些由来自 node-exporter 的指标触发的 Grafana 警报。

另外,我可以在 Kibana 上看到 Kubernetes 节点 (VM) 日志。

当节点一段时间没有日志时,我想在 Grafana 上创建警报。

最好的方法是什么?

我将 ElasticSearch (ES) 作为数据源连接到 Grafana。我可以在 Grafana 图表上看到 ES 日志指标。但是,这个解决方案似乎有问题。

因为集群可能是 - 缩小比例 - 升级,当所有旧节点都消失并创建新节点时。

第一次不是什么大问题(如果警报仅在第一次满足条件时触发)

第二个可能会导致几十个警报。

【问题讨论】:

  • “一段时间”是什么意思?
  • “某个时间”表示几个小时。
  • 请投票/接受答案,让社区知道有用性,谢谢!

标签: kubernetes monitoring prometheus-node-exporter


【解决方案1】:

您需要监控节点资源消耗以确保集群中的所有节点都处于健康状态。使用以下数据:集群中有足够多的节点,资源分配足以用于部署的应用程序,etcd 是健康的,您没有使用任何资源。

NewRelic 解决方案可以帮助您,它跟踪每个 Kubernetes 节点的资源消耗(使用的内核和内存)。这使您可以跟踪分布式服务中不同节点上的容器之间发送的网络请求数量。

如果您设置了警报,当节点停止报告(没有日志)或节点的 CPU 或内存使用率降至所需阈值以下时,您会收到通知。

【讨论】:

    猜你喜欢
    • 2016-07-17
    • 1970-01-01
    • 2013-02-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多