具有重叠 EC2 实例的集群

Question

我有以下具有重叠 EC2 实例的集群，例如：Yarn 集群和 Memcached 集群使用相同的实例 2、3、4；此外，每个实例都有不同的 RAM、CPU、内核大小，这会不会有潜在的课程问题？还是集群自己做平衡？谢谢！

Spark 集群：EC2 实例 2、3、5
Yarn 集群：EC2 实例 1, 2, 3, 4, 5
Memcached 数据库集群：EC2 实例 2, 3, 4, 6

instance 1: 512GB RAM, 2 vCPU,  2 cores  
instance 2: 1TB RAM,   8 vCPU,  4 cores    
instance 3: 2TB RAM,   6 vCPU,  6 cores    
instance 4: 256GB RAM, 2 vCPU,  2 cores  
instance 5: 2TB RAM,   16 vCPU, 4 cores    
instance 6: 4TB RAM,   4 vCPU,  8 cores

Answer 1

集群不知道这个共享；您需要为每个主机配置资源分配以避免过度承诺。

如果任何节点的总资源分配超过所有 RAM/Cores/Disk 可用，则您将面临风险（最常见的是，有 spark 任务或 yarn child 无法启动的风险）。例如，3 你不能为每个服务分配 1T。

例如，在实例 3 中，您不能为每个服务分配 1T。

附带说明一下，Spark 可以运行 on yarn，因此可以选择将其减少为两个集群。

具有重叠 EC2 实例的集群

Clusters with overlapping EC2 instances

hadoop

amazon-ec2

amazon-web-services

hadoop-yarn

apache-spark