Azure Kubernetes 集群节点故障场景

Azure Kubernetes Cluster Node Failure Scenario

假设我的集群中有 3 个节点,我想要 运行 300 个作业。

如果我 运行 1 job per POD100 pods per NODE,如果 Azure Kubernetes 服务中的节点发生故障会发生什么情况?

这些作业将进入挂起状态,因为 Kubernetes 支持每个节点 110 pods,因此没有资源来支持故障转移作业。您可以考虑使用 Cluster Autoscaler (Beta),它会提供更多主机以满足 运行 那些处于挂起状态的作业。

if a node fails

Cluster Autoscaler (CA) 可用于使用自动缩放组处理 Azure 中的节点故障:

https://github.com/kubernetes/autoscaler/blob/master/cluster-autoscaler/cloudprovider/azure/README.md

https://docs.microsoft.com/en-us/azure/aks/autoscaler

https://docs.microsoft.com/en-us/azure/aks/scale-cluster