【发布时间】:2022-01-01 16:54:07
【问题描述】:
我想用 prometheus、node exporter 和 grafana 设置监控。我正在使用 Node Exporter 来监控服务器上的 CPU/内存。 我在 Grafana 上使用了如下表达式。
100 - (avg by (instance) (rate(node_cpu_seconds_total{job="node",mode="idle"}[1m])) * 100)
但是,这个 cpu 值总是比预期值低。 通过 linux 中的“top”命令测量,甚至 cpu 也达到了 95-98%。该值仅显示 40-50%。 你能给我一些建议吗?如何修复这个错误的值?还是错误的表达方式?
【问题讨论】:
-
top屏幕截图中 98.7% 的 CPU 使用率意味着使用了 98.7% 的 单核。很明显,那台机器上有多个内核,并且由于您使用的是avg by(instance),它显示了节点上所有内核的平均(平均)负载。因此,如果一半的机器核心在 100% 负载下,而另一个在 0% 下,那么 50% 就是平均值。 -
@anemyte 谢谢。
标签: prometheus grafana prometheus-node-exporter