【问题标题】:How to troubleshoot long pod kill time for GKE?如何解决 GKE 的较长 pod kill time 问题?
【发布时间】:2019-10-24 15:42:36
【问题描述】:

使用helm upgrade --install 时,我经常遇到超时。我得到的错误是:

UPGRADE FAILED
Error: timed out waiting for the condition
ROLLING BACK

如果我查看 GCP 上的 GKE 集群日志,我会发现发生这种情况是因为此步骤需要非常长的时间来执行:

Killing container with id docker://{container-name}:Need to kill Pod

我已经看到它从几秒到 9 分钟不等。如果我进入日志消息的元数据以查找特定容器并查看其日志,它们中没有任何内容表明它与快速终止的容器之间存在区别。

关于如何继续解决此问题的任何建议?

【问题讨论】:

  • 同一个容器的终止时间是否相同?您可能需要查看 pod 的生命周期,尤其是优雅终止期。考虑到 helm 需要在一定时限内完成该过程,可能值得在较短的时间内完成

标签: google-cloud-platform google-kubernetes-engine kubernetes-helm


【解决方案1】:

您可以参考 this 疑难解答指南,了解与 Google Kubernetes Engine 相关的一般问题。

如上所述,您可能需要使用“Troubleshooting Application”指南进一步了解debugging 应用程序 pod 或其控制器对象。

我假设您使用以下命令检查了驻留在相应 pod 中的容器的 日志(1) 或 described(2)(查看终止原因) .如果没有,您也可以尝试这些以获得更多有价值的信息。

1. kubectl logs POD_NAME -c CONTAINER_NAME -p
2. kubectl describe pods POD_NAME

注意:我在 github.com 中看到一个 similar 讨论线程报告了有关 helm 升级失败的问题。你也可以去那边看看。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-06-07
    • 2021-02-20
    • 1970-01-01
    • 2021-09-08
    • 2020-10-23
    • 1970-01-01
    • 2019-05-29
    • 2017-01-15
    相关资源
    最近更新 更多