恢复损坏的 kubeadm master

restore destroyed kubeadm master

我使用 kubeadm 1.20 创建了一个 1-master 2-workers kubernetes 集群并备份了 etcd。我故意破坏了 master 来测试如何让集群回到 运行 状态。

Kubernetes version: 1.20
Installation method: kubeadm
Host OS: windows 10 pro
Guest OS: ubuntu 18 on virtual box 6
CNI and version: weave-net
CRI and version: docker 19

我部分成功了,因为我在销毁 master 之前创建的秘密在 etcd 恢复后可见,所以这部分似乎有效。

然而,基于 coredns pods:

的日志,coredns pods 无权向 api 服务器发出请求
[INFO] plugin/ready: Still waiting on: "kubernetes"
E1229 21:42:25.892580       1 reflector.go:178] pkg/mod/k8s.io/client-go@v0.18.3/tools/cache/reflector.go:125: Failed to list *v1.Namespace: Unauthorized
E1229 21:42:29.680620       1 reflector.go:178] pkg/mod/k8s.io/client-go@v0.18.3/tools/cache/reflector.go:125: Failed to list *v1.Endpoints: Unauthorized
[INFO] plugin/ready: Still waiting on: "kubernetes"
E1229 21:42:39.492521       1 reflector.go:178] pkg/mod/k8s.io/client-go@v0.18.3/tools/cache/reflector.go:125: Failed to list *v1.Service: Unauthorized

我猜它与服务帐户令牌有关,所以我缺少授权 pods 在 etcd 数据库替换后向 api-server 进行身份验证的步骤。

我错过了什么?

如果您只备份了 Etcd 的内容,那么 kubeadm 会生成用于签署 ServiceAccount JWT 的新证书。旧令牌将不再验证。由于这通常不会在日常维护期间完成,所以我认为 SA 控制器不知道重新发布令牌。如果您删除所有底层机密,它应该重新发布。