AWS EMR,任务节点仅用于 S3/EMRFS-only 处理和 1 个核心节点

AWS EMR with Task Nodes only for S3/EMRFS-only processing and 1 Core Node

鉴于带有 EMR 的 AWS 为您提供优化的 Spark 体验,那么:

我怀疑至少需要 1 个核心节点来解决 Spark shuffle 文件的问题,因为在过去可以通过缩放解除分配核心节点时,yarn 动态资源分配会丢失。

据AWS人员介绍:

Core nodes host the EMRFS/HDFS daemon. So you need at least 1 Core node to talk to S3 using EMRFS.

我自己知道了,但我怀疑至少还需要 1 个核心节点来解决 Spark shuffle 文件的问题——由于 Spark 的 Yarn 动态资源分配——在过去当核心节点丢失时节点可以通过缩放来释放。自动缩放或初始分配后无法释放核心节点。

就是说,我注意到大约 2 年前,EMR Spark 恢复能力已经投入了大量精力:https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/