Cloud Dataproc 是否支持高可用性?

Does Cloud Dataproc support high availability?

我担心 Google Cloud Dataproc 集群只有一个主节点可能会导致单点故障。我希望我的集群在发生意外的主机故障时具有(更多)弹性。

是否可以配置我的 Cloud Dataproc 集群,使其使用某种形式的高可用性来降低单个主节点故障事件的风险?理想情况下,我还想使用标准方法实现 YARN/Hadoop/HDFS 高可用性,因此不需要(或不需要)自定义软件。

Google Cloud Dataproc 在服务中内置了高可用性 (HA) 模式。在 HA 模式下,Cloud Dataproc 集群同时支持 HDFS High Availability and YARN High Availability 并且两个组件都配置为允许不间断的 YARN 和 HDFS 操作,尽管有任何单节点 failures/reboots.

关于 Cloud Dataproc HA 模式,需要牢记一些重要事项:

  • 高可用性功能目前处于测试阶段
  • 所有节点都使用 Apache Zookeeper 进行故障转移
  • 通过 Cloud Dataproc 作业 API 提交的作业不被考虑 "high availability",并且仍将在运行相应作业驱动程序的主节点出现故障时终止

有关 Cloud Dataproc HA 模式的更多信息,see the documentation。该文档还提供了有关如何在作业 tools/API.

之外向集群提交工作的说明