如何解决 GKE 的较长 pod kill time 问题？答案

【问题标题】：How to troubleshoot long pod kill time for GKE?如何解决 GKE 的较长 pod kill time 问题？
【发布时间】：2019-10-24 15:42:36
【问题描述】：

使用helm upgrade --install 时，我经常遇到超时。我得到的错误是：

UPGRADE FAILED
Error: timed out waiting for the condition
ROLLING BACK

如果我查看 GCP 上的 GKE 集群日志，我会发现发生这种情况是因为此步骤需要非常长的时间来执行：

Killing container with id docker://{container-name}:Need to kill Pod

我已经看到它从几秒到 9 分钟不等。如果我进入日志消息的元数据以查找特定容器并查看其日志，它们中没有任何内容表明它与快速终止的容器之间存在区别。

关于如何继续解决此问题的任何建议？

【问题讨论】：

【解决方案1】：

您可以参考 this 疑难解答指南，了解与 Google Kubernetes Engine 相关的一般问题。

如上所述，您可能需要使用“Troubleshooting Application”指南进一步了解debugging 应用程序 pod 或其控制器对象。

我假设您使用以下命令检查了驻留在相应 pod 中的容器的日志(1) 或 described(2)（查看终止原因） .如果没有，您也可以尝试这些以获得更多有价值的信息。

1. kubectl logs POD_NAME -c CONTAINER_NAME -p
2. kubectl describe pods POD_NAME

注意：我在 github.com 中看到一个 similar 讨论线程报告了有关 helm 升级失败的问题。你也可以去那边看看。

【讨论】：