【发布时间】:2018-09-21 05:32:12
【问题描述】:
当 CPU 使用率超过 70% 并持续 5 分钟时,我为 GKE 集群设置了自动扩展策略。但有时会突然出现峰值,服务器崩溃。该 Google Cloud Compute 实例被终止并启动了一个新实例。
在 Stackdriver 监控中,我如何查看已终止 GCP 实例的指标或有其他替代方法。
【问题讨论】:
标签: google-cloud-platform google-kubernetes-engine
当 CPU 使用率超过 70% 并持续 5 分钟时,我为 GKE 集群设置了自动扩展策略。但有时会突然出现峰值,服务器崩溃。该 Google Cloud Compute 实例被终止并启动了一个新实例。
在 Stackdriver 监控中,我如何查看已终止 GCP 实例的指标或有其他替代方法。
【问题讨论】:
标签: google-cloud-platform google-kubernetes-engine
据我了解,GKE 自动缩放基于检查是否有任何 Pod 未被调度并正在等待具有可用资源的节点。如果存在此类 Pod,并且自动扩缩器确定调整节点池的大小将允许调度等待中的 Pod,则自动扩缩器会扩展该节点池。
集群自动扩缩器还根据节点池的总容量需求衡量每个节点的使用情况。如果某个节点在一段时间内没有安排新的 Pod,并且该节点上运行的所有 Pod 都可以调度到池中的其他节点上,则自动缩放器会移动 Pod 并删除该节点。
听上去,您已经配置了一个托管实例组自动扩缩器。
Google documentation 建议不要在集群节点上使用托管实例组自动缩放。
注意:请勿启用 Google Compute Engine 的自动缩放功能 集群节点的托管实例组。 Kubernetes 引擎的 集群自动扩缩器独立于 Compute Engine 自动扩缩器。
但是,据我所知,您仍然可以在删除实例 30 天后检索已删除实例的指标数据。为此,您可以使用实例 ID 而不是实例名称。
然后,您可以通过以下方式查看 Stackdriver 监控以获取有关实例的信息:
https://app.google.stackdriver.com/instances/INSTANCE-ID?project=PROJECT-ID
可以通过在 Stackdrivers 监控视图中查看相关资源来检索实例 ID,或者运行以下命令并搜索 id 值:
gcloud compute instances describe INSTANCE_NAME --zone ZONE
【讨论】: