高负载导致节点变为 NotReady?

High loads causing node to become NotReady?

我正在 运行使用 KOPS 构建的 Kubernetes 集群在 GCE 中进行多项实验。我可以开始我的实验,验证它们是 运行ning,然后接近 运行 结束时负责为我的集群生成负载的节点获得一个状态 "Unknown" "MemoryPressure"、"DiskPressure" 和 "Ready" 类型。

巧合的是,运行 节点上的 pods 在 运行 末尾也需要最多的资源。

所以我的问题是,节点是否可能由于负载生成而无法响应来自 kube-controller 或 api-server 的请求?

如果是这样,我该如何解决?因为,我的实验可能会使节点无响应最长约半小时或更长时间。

提前感谢您的任何回复。

如果由于 Pods 的数量增加而导致负载增加,您可以尝试使用 Node 自动缩放。 Here你可以找到它的说明。

如果只有几个Pods消耗所有Node资源,那么唯一的办法就是使用CPU和Memory

更大的Nodes

原来我的一个 pods 消耗了节点上的所有 CPU。导致 kubelte 变得无响应。我对 pod 的 CPU-time 设置了限制并解决了这个问题。此外,添加了一个 kube-reserved 设置以确保 kubelet 获得它需要的 CPU-时间。