【问题标题】:Kops rolling-update fails with "Cluster did not pass validation" for master nodeKops 滚动更新失败,主节点出现“集群未通过验证”
【发布时间】:2019-12-17 11:11:37
【问题描述】:

由于某种原因,通过 kops(版本 1.13.0)从 kubernetes 1.11.9 升级到 1.12.9 后,我的主节点无法再连接到我的集群。在清单中,我将 kubernetesVersion 从 1.11.9 -> 1.12.9 升级。这是我正在做的唯一改变。但是,当我运行 kops rolling-update cluster --yes 时,出现以下错误:

Cluster did not pass validation, will try again in "30s" until duration "5m0s" expires: machine "i-01234567" has not yet joined cluster.
Cluster did not validate within 5m0s

之后,如果我运行 kubectl get nodes,我将不再在集群中看到该主节点。

通过 ssh 到断开连接的主节点实例进行一些调试,我通过运行 sudo cat /var/log/kube-apiserver.log 在我的 api-server 日志中发现了以下错误:

controller.go:135] Unable to perform initial IP allocation check: unable to refresh the service IP block: client: etcd cluster is unavailable or misconfigured; error #0: dial tcp 127.0.0.1:4001: connect: connection refused

我怀疑这个问题可能与 etcd 有关,因为当我运行 sudo netstat -nap | grep LISTEN | grep etcd 时没有输出。

有人知道如何让我的主节点回到集群中,或者对尝试的事情有什么建议吗?

【问题讨论】:

    标签: linux amazon-web-services kubernetes etcd kops


    【解决方案1】:

    我做了一些研究,对你有一些想法:

    1. 如果 etcd grep 没有输出,则意味着您的 etcd 服务器已关闭。检查'Exited' etcd容器| grep Exited | grep etcdlogs <etcd-container-id>的日志

    2. 试试这个instruction我找到了:

    1 - 我使用 etcdctl 从 de etcd 集群中删除了旧的 master。你 将需要连接 etcd-server 容器来执行此操作。

    2 - 在新的主节点上,我停止了 kubelet 和 protokube 服务。

    3 - 清空 Etcd 数据目录。 (数据和数据事件)

    4 - 编辑 /etc/kubernetes/manifests/etcd.manifests 和 etcd-events.manifest 将 ETCD_INITIAL_CLUSTER_STATE 从 new 更改为 现有的。

    5 - 从新的 master 获取 name 和 PeerURLS 并使用 etcdctl 添加 集群上的新主节点。 (etcdctl 成员添加“名称” "PeerULR") 你需要连接 etcd-server 容器来做 这个。

    6 - 在新的 master 上启动 kubelet 和 protokube 服务。

    1. 如果不是这种情况,那么您的证书可能有问题。它们是在创建集群期间提供的,其中一些具有允许的主节点端点。如果是这种情况,您需要为 api server/etcd 集群创建新证书并滚动它们。

    如果有帮助,请告诉我。

    【讨论】:

    • 看起来从 kubectl 1.11 升级到 1.12 是一个破坏性的变化,因为它是从 etcd2 到 etcd3。我能够通过使用--cloudonly 标志运行 kops 滚动更新来恢复主节点。
    • 我好像遇到了类似的问题,主节点无法加入集群,如果您知道如何修复我的集群,请
    猜你喜欢
    • 2018-11-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-01-23
    • 1970-01-01
    • 2019-12-10
    • 1970-01-01
    • 2021-05-14
    相关资源
    最近更新 更多