缓解 Hadoop 的跟腱问题
Mitigating Hadoop's Achilles tendons
我刚刚 this Hadoop tuorial 阅读了 Hadoop 在 JobTracker
中存在跟腱(单点故障)的状态:
The JobTracker is a single point of failure for the Hadoop MapReduce service which means if JobTracker goes down, all running jobs are halted.
还有 this article 指出 NameNode
是单点故障:
The single point of failure in a Hadoop cluster is the NameNode.
单点故障很糟糕,嗯? 什么strategies/techniques/tooling/etc。可以绕过这些 SPOF 并使 Hadoop 冗余、容错和有弹性(流行语警报!)?
一段时间以来,Hadoop 内置了 High availability
机制。
'Secondary NameNode'、'Backup JobTracker'将作为各自对应的热备份。
过去的大部分 'SPOF' 已被最近的 hadoop 版本消除。
在下面的文档中有深入的解释。
希望对您有所帮助。
HDFS和Mapreduce是Hadoop中的核心组件,在早期的Apache Hadoop版本中,Namenode和Jobtracker是SPOF(只能配置一个实例)。此问题已从 Hadoop 2.X 中修复。
Jobtracker HA。
Jobtracker HA可以通过在两个节点上以Active - Standby
模式配置2个Jobtracker(JT)
实例来实现。如果一个 JT 出现故障,第二个 Jobtracker 将可用于处理请求。一次只有一个 jobtracker(Active) 可用于服务请求,第二个 JT(Standby) 将 运行 处于只读模式。 Jobtracker HA 需要 zookeeper 实例,故障转移(切换)可以配置为 Manaul 或 Automcatic。自动故障转移需要另一个名为 Failover Controller (FC)
的进程。在当前版本中,如果活动 JT 失败,所有 运行 作业将停止,但是新作业将自动提交到新 JT。此功能在当前版本中不可用。
MR2
是使用YARN的第二代mapreduce,Resource Manager(RM)
是YARN中的master服务,RM也可以配置成Active-Standby模式。 RM 失败不会影响 运行 Jobs/Application.
名称节点 HA
Namenode HA 很重要。 Namenode HA 也可以配置为 Active-Standby 模式(最多 2 个 namenode 实例)。 Quorum based Journaling
是Widely accepted method,内部使用zookeeper。一次只有一个名称节点处于活动状态。
Secondary Namenode(SNN)
不是 Standby Namenode(SN)
,反之亦然,SNN 在非 HA 配置中具有不同的功能,Namenode HA 设置不需要 SNN,因为 SN namenode 执行检查点(功能SNN)
Processes Namenode HA
- 活动名称节点
- 备用名称节点
- 故障转移控制器:用于 Fencing 以避免裂脑情况。
- Jounalnodes(至少需要 3 个实例):命名空间修改将
被记录到 Journal 节点,Standby namenode 从那里读取。为了避免脑裂问题,一次只允许一个名称节点写入。
我刚刚 this Hadoop tuorial 阅读了 Hadoop 在 JobTracker
中存在跟腱(单点故障)的状态:
The JobTracker is a single point of failure for the Hadoop MapReduce service which means if JobTracker goes down, all running jobs are halted.
还有 this article 指出 NameNode
是单点故障:
The single point of failure in a Hadoop cluster is the NameNode.
单点故障很糟糕,嗯? 什么strategies/techniques/tooling/etc。可以绕过这些 SPOF 并使 Hadoop 冗余、容错和有弹性(流行语警报!)?
一段时间以来,Hadoop 内置了 High availability
机制。
'Secondary NameNode'、'Backup JobTracker'将作为各自对应的热备份。
过去的大部分 'SPOF' 已被最近的 hadoop 版本消除。
在下面的文档中有深入的解释。
希望对您有所帮助。
HDFS和Mapreduce是Hadoop中的核心组件,在早期的Apache Hadoop版本中,Namenode和Jobtracker是SPOF(只能配置一个实例)。此问题已从 Hadoop 2.X 中修复。
Jobtracker HA。
Jobtracker HA可以通过在两个节点上以Active - Standby
模式配置2个Jobtracker(JT)
实例来实现。如果一个 JT 出现故障,第二个 Jobtracker 将可用于处理请求。一次只有一个 jobtracker(Active) 可用于服务请求,第二个 JT(Standby) 将 运行 处于只读模式。 Jobtracker HA 需要 zookeeper 实例,故障转移(切换)可以配置为 Manaul 或 Automcatic。自动故障转移需要另一个名为 Failover Controller (FC)
的进程。在当前版本中,如果活动 JT 失败,所有 运行 作业将停止,但是新作业将自动提交到新 JT。此功能在当前版本中不可用。
MR2
是使用YARN的第二代mapreduce,Resource Manager(RM)
是YARN中的master服务,RM也可以配置成Active-Standby模式。 RM 失败不会影响 运行 Jobs/Application.
名称节点 HA
Namenode HA 很重要。 Namenode HA 也可以配置为 Active-Standby 模式(最多 2 个 namenode 实例)。 Quorum based Journaling
是Widely accepted method,内部使用zookeeper。一次只有一个名称节点处于活动状态。
Secondary Namenode(SNN)
不是 Standby Namenode(SN)
,反之亦然,SNN 在非 HA 配置中具有不同的功能,Namenode HA 设置不需要 SNN,因为 SN namenode 执行检查点(功能SNN)
Processes Namenode HA
- 活动名称节点
- 备用名称节点
- 故障转移控制器:用于 Fencing 以避免裂脑情况。
- Jounalnodes(至少需要 3 个实例):命名空间修改将 被记录到 Journal 节点,Standby namenode 从那里读取。为了避免脑裂问题,一次只允许一个名称节点写入。