【问题标题】:How to monitor gcloud k8s HTTP failure rate?如何监控gcloud k8s HTTP失败率?
【发布时间】:2020-06-15 22:01:33
【问题描述】:

我正在开发具有基于 HTTP 的应用程序的生产 K8s 集群,我想设置对 HTTP 错误的监控和警报。很清楚如何检查服务的正常运行时间(使用监控,例如堆栈驱动程序),但绝对不涉及 HTTP 失败率。

我有一个nginx-ingress-controller 作为端点(带有外部负载平衡器)。

如何从这个负载均衡器收集和查看延迟、HTTP 失败等指标?

HTTP 响应失败率 超过某个百分比时,我尤其需要现在。

【问题讨论】:

    标签: kubernetes gcloud stackdriver nginx-ingress


    【解决方案1】:

    例如,如果您正在查看监视 HTTP 4XX 和 5XX 错误,我相信最好的方法是在某些日志记录工具中聚合负载均衡器和 nginx 入口控制器日志。如果您正在寻找开源解决方案,您可以使用 ElasticsearchKibana 之类的东西来可视化一段时间内的错误。要发送日志,您可以使用 fluent-bitFluentd 之类的转发器。

    如果您对付费工具有预算,您可以使用以下商用解决方案:

    然后您可以使用这些工具中的任何一个设置警报。对于 Elasticsearch,您可以使用类似 elastalert

    如果您使用 GCP,您还可以使用他们的 Logging tool,创建自定义指标,并针对该指标发出警报。

    另一种选择,但可能没有您正在寻找的指标是使用 PrometheusNginx ingress Prometheus exporter 来监控 nginx 指标(这取决于您想要监控的指标)

    【讨论】:

    • 如果您使用的是 Google Cloud 平台,您可以尝试使用堆栈驱动程序监控,使用警报策略:cloud.google.com/monitoring/alerts/concepts-indepth
    • @WilfredL.,警报策略没问题,当您想不断 ping 您的前端或后端运行状况检查时,但如果您想收集所有请求 4xx 和 5xx 错误怎么办?
    • 很好的总结,Rico。 gcloud 内置工具呢?也许错误报告?是的,你说得对,我只想监控 4XX 和 5XX
    • 添加到答案中。谢谢!
    • @Rico,看起来很有趣。我怎样才能通过“创建指标”获得 4XX/5XX 率?
    猜你喜欢
    • 2022-12-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-29
    • 2015-07-11
    • 2015-05-31
    • 1970-01-01
    • 2015-03-30
    相关资源
    最近更新 更多