如何监控gcloud k8s HTTP失败率？答案

【问题标题】：How to monitor gcloud k8s HTTP failure rate?如何监控gcloud k8s HTTP失败率？
【发布时间】：2020-06-15 22:01:33
【问题描述】：

我正在开发具有基于 HTTP 的应用程序的生产 K8s 集群，我想设置对 HTTP 错误的监控和警报。很清楚如何检查服务的正常运行时间（使用监控，例如堆栈驱动程序），但绝对不涉及 HTTP 失败率。

我有一个nginx-ingress-controller 作为端点（带有外部负载平衡器）。

如何从这个负载均衡器收集和查看延迟、HTTP 失败等指标？

当 HTTP 响应失败率 超过某个百分比时，我尤其需要现在。

【问题讨论】：

标签： kubernetes gcloud stackdriver nginx-ingress

【解决方案1】：

例如，如果您正在查看监视 HTTP 4XX 和 5XX 错误，我相信最好的方法是在某些日志记录工具中聚合负载均衡器和 nginx 入口控制器日志。如果您正在寻找开源解决方案，您可以使用 Elasticsearch 和 Kibana 之类的东西来可视化一段时间内的错误。要发送日志，您可以使用 fluent-bit 或 Fluentd 之类的转发器。

如果您对付费工具有预算，您可以使用以下商用解决方案：

然后您可以使用这些工具中的任何一个设置警报。对于 Elasticsearch，您可以使用类似 elastalert

如果您使用 GCP，您还可以使用他们的 Logging tool，创建自定义指标，并针对该指标发出警报。

另一种选择，但可能没有您正在寻找的指标是使用 Prometheus 和 Nginx ingress Prometheus exporter 来监控 nginx 指标（这取决于您想要监控的指标）

【讨论】：

如果您使用的是 Google Cloud 平台，您可以尝试使用堆栈驱动程序监控，使用警报策略：cloud.google.com/monitoring/alerts/concepts-indepth
@WilfredL.，警报策略没问题，当您想不断 ping 您的前端或后端运行状况检查时，但如果您想收集所有请求 4xx 和 5xx 错误怎么办？
很好的总结，Rico。 gcloud 内置工具呢？也许错误报告？是的，你说得对，我只想监控 4XX 和 5XX
添加到答案中。谢谢！
@Rico，看起来很有趣。我怎样才能通过“创建指标”获得 4XX/5XX 率？