EMR :作业流程中的所有从站都因 Spot 而终止

EMR : All slaves in the job flow were terminated due to Spot

我们遇到了一个关于 EMR 和 Spot 实例的问题。

我们在同一地区的不同环境(不同的 AWS 账户)中有集群:

当 spot 实例终止时(超过我的最大出价、容量不足或无论如何),集群终止并且我只有这条消息: All slaves in the job flow were terminated due to Spot

经过研究,人们已经遇到了这个问题,但这是由于市场类型为 Spot 的主节点造成的,这不是我的情况:

我试图在 AWS 文档中找到响应,但它告诉我们的一切与我们怀疑的相反:两个核心节点终止,终止集群

此致,

发生这种情况是因为您选择了 spot 类型的核心节点。如果您阅读 AWS EMR 中实例类型的最佳实践,您会发现他们建议使用 至少一个 on-demand 核心节点实例 。请记住,这需要 额外费用

您可以为核心节点使用实例队列选项,并将 spot 和 on-demand 实例类型添加到该实例队列。

所以一般的经验法则是

Keep master and core instances as on-demand and task instances as spot.

我添加了一些链接,您可以在其中阅读更多相关信息并相应地配置您的集群。

链接 1:Cluster configuration and Best Practices

链接 2:Types of nodes in EMR