使用带有 hadoop 的 ZooKeeper 的 Standby Masters 是否可以防止单点故障

Does using Standby Masters with ZooKeeper with hadoop prevent single point of failure

在 hadoop 中,名称节点是单点故障。如果您在 hadoop 旁边使用 spark,Zookeeper 是否会处理 hadoop 通常会自行产生的单点故障?或者它是否仍然依赖于 hdfs 输入的名称节点

让我试着详细说明一下:

In hadoop namenodes are a single point of failure.

好吧,如果您使用 ZKFC(ZooKeeper 故障转移控制器)在主用-备用模式下设置 2 个 NameNode 以进行自动故障转移,那么在这种情况下,NameNode 就不是单点故障。

If you use spark along side hadoop does Zookeeper take care of the single point of failure hadoop would normally have on its own?

有多种方法可以 run/use 与 hadoop 并驾齐驱。

  • 使用 YARN 运行 容器上的 Spark
  • 使用Spark的standalone模式(使用自己的Spark master和worker),在这更可以使用Zookeeper让Spark master高可用,负责调度决策。

Or does it still rely on the namenode for the hdfs input

是的,Spark 仍然需要在 NameNode 上回复以从 HDFS 读取数据。每个 HDFS Read/Write 请求都必须通过 NameNode,NameNode 具有提供实际数据所需的元数据信息。