运行具有高可用性的 Hadoop 集群的最低系统要求

Minimum system requirements for running a Hadoop Cluster with High Availability

据我了解，对于 hadoop 中的高可用性，我们需要一个名称节点和一个备用节点，网络共享存储 space（在两个名称节点之间共享），至少 2 个数据节点用于运行宁hadoop集群。

如果我缺少生产 hadoop 环境所需的任何其他服务，请提出建议。

名称节点的系统要求应该是什么，因为它仅处理元数据（I/O 密集型或 CPU 密集型）。我们正在处理的数据运行主要是I/O密集型。

对于 Hadoop HA - 你至少需要两台独立的机器可以运行 Namenode 和 Namenode HA。所以理论上你可以拥有至少 2 台机器的 Hadoop HA 集群。但是实际用处不大。

回答你的另一个问题： 1、可以在运行Namenode服务所在的机器上运行DataNode服务。这是 PoC 集群中的一般情况，您的集群较小（大约 3-7 个节点）注意：作为最佳实践的一部分，您应该在生产中为 Namenode 等主服务使用专用机器。

是的，您可以运行在运行s Datanode 或 Namenode 或两者的机器上提供 YARN 服务。事实上，在单节点集群上，所有服务运行s 在一台机器上。基本上，所有这些服务，如 Namenode、Datanode、YARN 都是 Java 进程，因此它们运行在单独的 JVM 上。您可以根据需要在同一节点或不同节点上托管所有这些进程。

Namenode 主要需要 RAM，这取决于您的集群数据大小和集群中的块数或预期 have.Generally，您的查询（CPU 或 I/O 密集型）做不影响名称节点系统要求。