Kubernetes NodeLost/NotReady / 高 IO 磁盘

Kubernetes NodeLost/NotReady / High IO Disks

我在生产环境中遇到了一个非常复杂的 Kubernetes 问题,它丢失了所有代理节点,它们从就绪状态变为未就绪状态,所有 pods 从 运行 NodeLost 状态发生变化。我发现 Kubernetes 正在大量使用磁盘:

我的集群是使用 acs-engine 0.17.0 部署的(我也测试了以前的版本并且发生了同样的情况)。

另一方面,我们决定部署包含高级磁盘的 Standard_DS2_VX VM 系列,并将 IOPS 增加到 2000(之前低于 500 IOPS),同样的事情发生了。我现在要尝试更大的数字。

如有任何帮助,我们将不胜感激。

这是一个耗尽资源的微服务,然后 Kubernetes 只是停止了节点。我们致力于建立 resources/limits 基础,这样我们就可以避免整个集群中断。