如何衡量 Google 云 Dataproc 中的高可用性

How to measure High Availability in Google cloud Dataproc

根据 google 文档,基于 HDFS 和 YARN 可用性而不是基于 regions/zones 测量 Dataproc 的高可用性。是否可以在一个区域中保留一个 master 而在不同区域中保留另一个 master 以获得位置上下文中的 HA? 另请详细说明,在Global Endpoint 中配置Dataproc 集群是否实现了上下文到位置的HA?

我已经阅读了 Google 文档,但这并没有消除疑虑。

不,Dataproc HA 不保证区域可用性,因为所有 Dataproc 集群节点都应位于同一 GCP 地区。

要实现区域可用性,您需要在多个地区创建 Dataproc 集群,并使用 Dataproc Workflow Templates with label-based cluster selectors 跨地区集群分发作业提交。