云上Cloudera架构详解(Azure)

Explanation of Cloudera architecture on cloud (Azure)

我是 Hadoop/Cloudera 世界的新手,我需要在 Microsoft Azure 云上设置 Cloudera 集群。 如果我理解正确,有两种方法可以在集群上安装 Cloudera:使用 Cloudera Manager 或通过手动安装。 根据此架构,似乎需要一台用于 Cloudera Manager 和 3 个主节点的专用机器。

但是在这个table看来我可以直接在主节点上安装Cloudera Manager。

这是我的 doubts/questions:

提前感谢您提供任何信息。

您可以从 https://www.cloudera.com/documentation/enterprise/5-8-x/topics/cm_ig_host_allocations.html 的 Cloudera 文档中看到,您可以拥有不同数量的主节点,具体取决于您的集群大小和高可用性要求:

  • 对于最多 10 个 worker 节点且没有高可用性的小型集群,您可以只有一个 master(不推荐用于生产)
  • 对于高可用性的小型集群,可以有两个主节点
  • 一个更大的集群(最多 200 个工作节点)可以有三个主节点 - 请注意他们的例子只有 运行s 两个 NameNode 实例,因为目的是将工作负载分散到更多节点而不是占多数投票给这个角色。
  • 最多 1000 个工作节点和五个主节点。

类似地,用于 Cloudera Manager 的实用程序主机用于上述前两种情况中的所有实用程序和边缘角色,然后随着集群规模变大,显示更多实用程序主机,在这些情况下使用 Cloudera Manager作为其主机上唯一的实用程序 运行。

https://www.cloudera.com/products/product-components/cloudera-director.html describes Cloudera Director, which is a tool to help you run Hadoop clusters in public cloud (AWS/Azure/Google Cloud). Cloudera Director works with Cloudera Manager to provide centralised administration of cloud clusters. https://www.cloudera.com/documentation/director/2-2-x/topics/director_cdh_cluster_management.html也是Cloudera Director和Cloudera Manager的区别的有用参考。