Kubernetes NodeLost/NotReady / 高 IO 磁盘

Kubernetes NodeLost/NotReady / High IO Disks

我在生产环境中遇到了一个非常复杂的 Kubernetes 问题，它丢失了所有代理节点，它们从就绪状态变为未就绪状态，所有 pods 从运行 NodeLost 状态发生变化。我发现 Kubernetes 正在大量使用磁盘：

我的集群是使用 acs-engine 0.17.0 部署的（我也测试了以前的版本并且发生了同样的情况）。

另一方面，我们决定部署包含高级磁盘的 Standard_DS2_VX VM 系列，并将 IOPS 增加到 2000（之前低于 500 IOPS），同样的事情发生了。我现在要尝试更大的数字。

如有任何帮助，我们将不胜感激。

这是一个耗尽资源的微服务，然后 Kubernetes 只是停止了节点。我们致力于建立 resources/limits 基础，这样我们就可以避免整个集群中断。