Azure Kubernetes 集群节点故障场景
Azure Kubernetes Cluster Node Failure Scenario
假设我的集群中有 3 个节点,我想要 运行 300 个作业。
如果我 运行 1 job per POD
和 100 pods per NODE
,如果 Azure Kubernetes 服务中的节点发生故障会发生什么情况?
这些作业将进入挂起状态,因为 Kubernetes 支持每个节点 110 pods,因此没有资源来支持故障转移作业。您可以考虑使用 Cluster Autoscaler (Beta),它会提供更多主机以满足 运行 那些处于挂起状态的作业。
if a node fails
Cluster Autoscaler (CA) 可用于使用自动缩放组处理 Azure 中的节点故障:
假设我的集群中有 3 个节点,我想要 运行 300 个作业。
如果我 运行 1 job per POD
和 100 pods per NODE
,如果 Azure Kubernetes 服务中的节点发生故障会发生什么情况?
这些作业将进入挂起状态,因为 Kubernetes 支持每个节点 110 pods,因此没有资源来支持故障转移作业。您可以考虑使用 Cluster Autoscaler (Beta),它会提供更多主机以满足 运行 那些处于挂起状态的作业。
if a node fails
Cluster Autoscaler (CA) 可用于使用自动缩放组处理 Azure 中的节点故障: