pod 因 FailedSync 原因而失败且没有解释答案

【问题标题】：pods fail with FailedSync reason and no explanationpod 因 FailedSync 原因而失败且没有解释
【发布时间】：2017-11-04 21:08:41
【问题描述】：

我在谷歌云容器引擎上有一个集群，有 6 台 n1-standard-1 机器。

我在这个集群上部署了几个服务和 pod，有时它们失败了，唯一的原因是 FailedSync 并且没有更多解释，我不知道它们为什么会失败。虚拟机没有过载，只使用了 6% 的 CPU 和不到 1Gi 的内存。

这里有一些来自 describe 命令的事件：

is system object: true 过滤的 Pod 也有同样的问题，其中一些在 4 天内重启了超过 900 次......

我可能错过了我的 kubernetes 配置中的某些内容，但我不知道是什么...

感谢您的帮助

【问题讨论】：

标签： kubernetes google-kubernetes-engine

【解决方案1】：

我认为找出问题的最佳方法是通过 ssh 连接到节点并使用 sudo docker logs $CONTAINER_Id 查看您的应用程序发生了什么。

您可以通过kubectl describe po $PO_NAME 或简单的kubectl get po -o wide 了解您的应用程序部署到哪些节点。

【讨论】：

感谢您的回答我运行了kubectl get nodes 并且在 6 个节点上 5 个尚未准备好。我 ssh 一个没有准备好，没有 docker 容器正在运行，并且 describe 命令列出了几个未终止的 pod。我不知道为什么这些节点是Not Ready...
您是否尝试过kubectl describe node $NODE_NAME 来查找可能的问题？
是的，我试过了，我没有任何事件，在某些类型的条件下是 Unknown：OutOfDisk、MemoryPressure、DiskPressure、Ready 和相同的消息 Kubelet stopped posting node status. ans kubelet 确实没有运行跨度>
你好，看看kubelet的日志怎么样？我想你可以在那里找到一些线索。

【解决方案2】：

我终于找到了节点故障的原因。我在 https://eventstore.org/ 数据库中使用 glusterfs 卷，我认为延迟导致它失败，我在 eventstore 日志中看到很多慢查询。我真的不知道会发生什么，但是由于我在集群的同一区域中使用了持久性 ssd 磁盘，所以我没有问题。 0 重新启动了几天，节点的工作就像一个魅力。

我也在单个节点上隔离了这个数据库。

【讨论】：