缓解 Hadoop 的跟腱问题

Mitigating Hadoop's Achilles tendons

我刚刚 this Hadoop tuorial 阅读了 Hadoop 在 JobTracker 中存在跟腱（单点故障）的状态：

The JobTracker is a single point of failure for the Hadoop MapReduce service which means if JobTracker goes down, all running jobs are halted.

还有 this article 指出 NameNode 是单点故障：

The single point of failure in a Hadoop cluster is the NameNode.

单点故障很糟糕，嗯？ 什么strategies/techniques/tooling/etc。可以绕过这些 SPOF 并使 Hadoop 冗余、容错和有弹性（流行语警报！）？

一段时间以来，Hadoop 内置了 High availability 机制。 'Secondary NameNode'、'Backup JobTracker'将作为各自对应的热备份。

过去的大部分 'SPOF' 已被最近的 hadoop 版本消除。

在下面的文档中有深入的解释。

希望对您有所帮助。

HDFS和Mapreduce是Hadoop中的核心组件，在早期的Apache Hadoop版本中，Namenode和Jobtracker是SPOF（只能配置一个实例）。此问题已从 Hadoop 2.X 中修复。

Jobtracker HA。

Jobtracker HA可以通过在两个节点上以Active - Standby模式配置2个Jobtracker(JT)实例来实现。如果一个 JT 出现故障，第二个 Jobtracker 将可用于处理请求。一次只有一个 jobtracker(Active) 可用于服务请求，第二个 JT(Standby) 将运行处于只读模式。 Jobtracker HA 需要 zookeeper 实例，故障转移（切换）可以配置为 Manaul 或 Automcatic。自动故障转移需要另一个名为 Failover Controller (FC) 的进程。在当前版本中，如果活动 JT 失败，所有运行作业将停止，但是新作业将自动提交到新 JT。此功能在当前版本中不可用。

MR2是使用YARN的第二代mapreduce，Resource Manager(RM)是YARN中的master服务，RM也可以配置成Active-Standby模式。 RM 失败不会影响运行 Jobs/Application.

名称节点 HA

Namenode HA 很重要。 Namenode HA 也可以配置为 Active-Standby 模式（最多 2 个 namenode 实例）。 Quorum based Journaling是Widely accepted method，内部使用zookeeper。一次只有一个名称节点处于活动状态。

Secondary Namenode(SNN) 不是 Standby Namenode(SN)，反之亦然，SNN 在非 HA 配置中具有不同的功能，Namenode HA 设置不需要 SNN，因为 SN namenode 执行检查点（功能SNN)

Processes Namenode HA

活动名称节点
备用名称节点
故障转移控制器：用于 Fencing 以避免裂脑情况。
Jounalnodes（至少需要 3 个实例）：命名空间修改将被记录到 Journal 节点，Standby namenode 从那里读取。为了避免脑裂问题，一次只允许一个名称节点写入。

缓解 Hadoop 的跟腱问题

Mitigating Hadoop's Achilles tendons

java

hadoop

fault-tolerance

resiliency