Hadoop 上集群节点资源的建议?

Recommandations for cluster's nodes resources on Hadoop ?

是否建议在集群的所有机器上使用相同的资源(CPU 和 RAM)?

您的集群的基础设施配置将取决于您为其构建集群的业务案例,而这又会转化为集群为实现业务成果而需要满足的数据处理要求。通常,hadoop 系统最初设计时考虑的是集群中会有具有异构配置的机器。 (现在服务器供应商已经针对 hadoop 工作负载优化了机器,主从之间的磁盘大小有所不同)。

为了具体解决您的问题,我在一些站点上看到集群有多达 50 个节点,主节点和从节点的配置完全相同(我认为这有点过头了)。通常架构设计决策并不总是决定采购决策。

来自 3 个主要 Hadoop 分发提供商的以下链接将是了解更多关于集群设计和应用站点特定参数(即数据处理需求、数据增长、数据保留、复制等)的良好起点:

霍顿工厂:

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.5/bk_cluster-planning/bk_cluster-planning.pdf

Cloudera:

https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

MAPR:

http://doc.mapr.com/display/MapR/Planning+Cluster+Hardware