在大规模扩展期间无法通过 kubectl 访问 EKS 集群

EKS cluster not reachable through kubectl during major scale up

我在 aws EKS 上有一个集群 运行 和 Kubernetes Cluster Autoscaler
几天前,我进行了大规模扩展,我的集群在很短的时间内就达到了 50 个节点。发生这种情况时,我尝试使用 kubectl 访问我的集群,但几分钟后没有任何响应。
我知道 EKS Cluster Autoscaler 通过在不同的 AZ 中设置 3 个节点来为 Control Plane 节点提供高可用性,只是为了集群上的这种高负载。
因此,我试图了解 API server(驻留在 Control Plane 中)无响应的可能原因是什么? 抱歉缺少详细信息,但我只是在寻找一个大体方向,然后再进行更多研究。

...Cluster Autoscaler provides HA for the Control Plane node by having 3 nodes in different AZ

控制平面是 managed by AWS 并具有 HA 功能 无需安装 cluster-autoscaler:

Amazon EKS runs and scales the Kubernetes control plane across multiple AWS Availability Zones to ensure high availability. Amazon EKS automatically scales control plane instances based on load, detects and replaces unhealthy control plane instances, and automatically patches the control plane.

...trying to understand what may be the cause for this unresponsiveness of the API server (that resided in the Control Plane)?

如果您遇到控制平面问题,您应该向 AWS 支持提出支持案例,控制平面不是由您部署的 Cluster Autoscaler 管理。

Cluster Autoscaler会自动调整worker节点的数量,让所有pods都可以运行。同样,当集群中pods 运行ning较少时,组件也可以自动终止多余的worker节点。

The Kubernetes Cluster Autoscaler automatically adjusts the number of nodes in your cluster when pods fail or are rescheduled onto other nodes. The Cluster Autoscaler is typically installed as a Deployment in your cluster.