Hadoop 2.0 资源管理器高可用性

Hadoop 2.0 Resource Manager high availability

Hadoop 2.0 通过 Federation Architecture 提供高可用性。通过上述架构实现了高可用性。

我对“资源管理器”有疑问。

The fundamental idea of MRv2 is to split up the two major functionalities of the JobTracker, resource management and job scheduling/monitoring, into separate daemons. The idea is to have a global ResourceManager (RM) and per-application ApplicationMaster (AM). An application is either a single job in the classical sense of Map-Reduce jobs or a DAG of jobs.

The ResourceManager and per-node slave, the NodeManager (NM), form the data-computation framework. The ResourceManager is the ultimate authority that arbitrates resources among all the applications in the system.

我们可以使用资源管理器,而不是 co-existing 名称节点。由于我们只有一个资源管理器,该架构如何解决资源管理器的高可用性问题?

如果资源管理器关闭或不可用会怎样?

从 hadoop v2.4+ 开始,此问题已得到修复。看看here.

Hadoop 2.X.X 中,我们为 HDFS 提供了 高可用性YARN.

用于 HDFS 高可用性的 NameNode HA。

用于 YARN 高可用性的资源管理器 HA (RMHA)。

在 RMHA 中,我们有一个 主要资源管理器(活动) 和一个或多个 备用资源管理器 。此资源管理器 HA 由 Zookeeper 协调。如果活动资源管理器关闭,FailoverControl 启动 故障转移 以作为活动资源管理器备用。因此,我们始终可以拥有 活动资源管理器 。这个概念避免了纱线资源管理器中的单点故障(SPOF)

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_hag_rm_ha_config.html#concept_xgs_pc5_vl_unique_1