将节点添加到 kubernetes 集群导致无法加载 Kubelet 配置文件 /var/lib/kubelet/config.yaml 并且在 /etc/cni/net.d 中找不到网络

Adding node to kubernetes cluster gives failed to load Kubelet config file /var/lib/kubelet/config.yaml and no networks found in /etc/cni/net.d

我有一个双节点 k8s 集群在工作。我向集群添加了另一个节点,sudo kubeadm join ... 命令报告该节点已加入集群。新节点卡在NotReady状态:

kubectl get nodes
NAME               STATUS     ROLES    AGE    VERSION
msi-ubuntu18       NotReady   <none>   29m    v1.19.0
tv                 Ready      master   131d   v1.18.6
ubuntu-18-extssd   Ready      <none>   131d   v1.17.4

journalctl -u kubelet 显示此错误:

Started kubelet: The Kubernetes Node Agent.
  22039 server.go:198] failed to load Kubelet config file /var/lib/kubelet/config.yaml, error failed to read kubelet config file "/var/l...

但是文件 /var/lib/kubelet/config.yaml 存在并且看起来没问题。

sudo systemctl status kubelet 显示不同的错误:

kubelet.go:2103] Container runtime network not ready: NetworkReady=false reason:NetworkPluginNotReady message:docker: network plu
cni.go:239] Unable to update cni config: no networks found in /etc/cni/net.d

并且新节点上没有/etc/cni/目录。 (现有节点有 /etc/cni/net.d/ 里面有 calico 文件。)如果我 运行

kubectl apply -f https://docs.projectcalico.org/v3.11/manifests/calico.yaml

再找master还是没有解决问题。新节点上仍然没有 /etc/cni/ 目录。

我一定是在创建新节点的时候漏掉了一个步骤。如何获取新节点上的 /etc/cni/ 目录?同样令人费解的是,当新节点卡在NotReady时,kubeadm join ...命令指示成功。

对于其他 运行 遇到这个问题的人,我终于能够通过

解决这个问题
kubectl delete -f https://docs.projectcalico.org/v3.11/manifests/calico.yaml

其次是

kubectl apply -f https://docs.projectcalico.org/manifests/calico.yaml

我几个月前安装的 3.11 版本和新节点之间肯定存在一些版本不兼容问题。

我在使用 pods cidr 初始化集群时也遇到了同样的情况 #kubeadm init --pod-network-cidr=10.10.0.0/16

但是,#kubectl get pods --all-namespaces 命令帮助解决了这个问题。

我只是运行经历过类似的情况,但近因在更高层次。

基本上我对 kube-system 命名空间应用了一些 Gatekeeper 安全策略,但没有意识到我必须为 kube-proxyaws-node 设置例外(这是在 EKS 中)。

kube 事件日志中的几个示例:

[denied by psp-pods-allowed-user-ranges] Container kube-proxy is attempting to run without a required securityContext/runAsGroup. Allowed runAsGroup: {"ranges": [{"max": 65535, "min": 1}], "rule": "MustRunAs"}
[denied by caps-constraints] container <kube-proxy> is not dropping all required capabilities. Container must drop all of ["ALL"]
[denied by psp-hostfs-constraints] HostPath volume {"name": "xtables-lock", "hostPath": {"path": "/run/xtables.lock", "type": "FileOrCreate"}} is not allowed, pod: kube-proxy-j5h2d. Allowed path: [{"pathPrefix": "/tmp", "readOnly": true}]

我在应用更改后整整一个月都没有注意到这一点;它只是在我的一个 EKS 节点出于某种原因重新启动后才出现。

在这里发帖希望它能在我失去的那一天拯救其他人。