【问题标题】:pods fail with FailedSync reason and no explanationpod 因 FailedSync 原因而失败且没有解释
【发布时间】:2017-11-04 21:08:41
【问题描述】:

我在谷歌云容器引擎上有一个集群,有 6 台 n1-standard-1 机器。

我在这个集群上部署了几个服务和 pod,有时它们失败了,唯一的原因是 FailedSync 并且没有更多解释,我不知道它们为什么会失败。虚拟机没有过载,只使用了 6% 的 CPU 和不到 1Gi 的内存。

这里有一些来自 describe 命令的事件:

is system object: true 过滤的 Pod 也有同样的问题,其中一些在 4 天内重启了超过 900 次......

我可能错过了我的 kubernetes 配置中的某些内容,但我不知道是什么...

感谢您的帮助

【问题讨论】:

    标签: kubernetes google-kubernetes-engine


    【解决方案1】:

    我认为找出问题的最佳方法是通过 ssh 连接到节点并使用 sudo docker logs $CONTAINER_Id 查看您的应用程序发生了什么。

    您可以通过kubectl describe po $PO_NAME 或简单的kubectl get po -o wide 了解您的应用程序部署到哪些节点。

    【讨论】:

    • 感谢您的回答我运行了kubectl get nodes 并且在 6 个节点上 5 个尚未准备好。我 ssh 一个没有准备好,没有 docker 容器正在运行,并且 describe 命令列出了几个未终止的 pod。我不知道为什么这些节点是Not Ready...
    • 您是否尝试过kubectl describe node $NODE_NAME 来查找可能的问题?
    • 是的,我试过了,我没有任何事件,在某些类型的条件下是 Unknown:OutOfDisk、MemoryPressure、DiskPressure、Ready 和相同的消息 Kubelet stopped posting node status. ans kubelet 确实没有运行跨度>
    • 你好,看看kubelet的日志怎么样?我想你可以在那里找到一些线索。
    【解决方案2】:

    我终于找到了节点故障的原因。我在 https://eventstore.org/ 数据库中使用 glusterfs 卷,我认为延迟导致它失败,我在 eventstore 日志中看到很多慢查询。我真的不知道会发生什么,但是由于我在集群的同一区域中使用了持久性 ssd 磁盘,所以我没有问题。 0 重新启动了几天,节点的工作就像一个魅力。

    我也在单个节点上隔离了这个数据库。

    【讨论】:

      猜你喜欢
      • 2019-08-29
      • 2022-10-05
      • 1970-01-01
      • 1970-01-01
      • 2020-03-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多