用于批处理的多区域 GKE 集群

Multi-zonal GKE cluster for batch processing

我正在使用 GKE 区域集群上的自动缩放可抢占节点批处理数据。 GPU 时不时地变得稀缺。我没有切换区域来追逐 GPU(我已经做过),而是尝试更改为多区域配置。在我看来,在一些轻型到中型工作负载上似乎一切正常。

我在 UI 中看到有关不平衡节点池的警告,因为节点池似乎在有可用资源的区域中扩展。这个警告是认真的吗?不同区域的不同节点号有什么影响?我应该改为 运行 每个区域单独的池吗?

我在节点之间有相当多的通信量 -- 我的带宽受到位于不同区域的工作人员的影响有多大? GKE docs表示没有入口限制,只是出口比区域内慢,比区域间快。

根据 Bandwidth 摘要 table,入口和出口没有限制,部署在多区域中的节点之间的带宽连接略低于内部连接一个区域。

集群自动缩放程序仅在扩展事件期间跨区域进行平衡。 Cluster 无论节点池中底层托管实例组的相对大小如何,自动缩放器都会缩减未充分利用的节点,这可能导致节点跨区域分布不均。

如果您指定最少零个节点,则空闲节点池可以完全缩减。但是,集群中必须始终至少有一个节点可供 运行 系统 Pods。

有关平衡节点组的更多信息,请参阅link