AWS EMR Presto Cluster Terminated abruptly Error: All slaves in the job flow were terminated due to Spot

AWS EMR Presto Cluster Terminated abruptly Error: All slaves in the job flow were terminated due to Spot

我在使用 AWS EMR PrestoDB 时遇到问题。 我启动了一个集群,主节点作为协调器,核心节点作为工作节点。核心节点是 spot 实例。但是,主节点是按需的。集群启动 5 周后,我收到此错误消息

Terminated with errorsAll slaves in the job flow were terminated due to Spot

是不是如果所有的slave都终止了就会导致集群自己终止? 我查看了现货定价历史记录,它并没有达到我设置的最高价格附近。

我已经做了什么? 我检查了转储到 s3 的日志。我没有找到任何关于终止原因的信息。就是说

Failed to visit ... <many directories>

为了避免数据丢失,因为spot pricing/interruption数据需要通过快照备份,频繁复制到s3或者留下EBS卷。 参考:https://aws.amazon.com/premiumsupport/knowledge-center/spot-instance-terminate/

您的集群应该仍在运行,但没有任务节点。在 Cluster-> Details -> Hardware 下,您可以添加任务节点。 Adding task nodes

相似场景:AWS EMR Error : All slaves in the job flow were terminated

对于使用 Spot,您可能需要使用实例终止通知并设置最高价格: https://aws.amazon.com/blogs/compute/new-amazon-ec2-spot-pricing/

我正在回答我自己的问题。根据 Presto 社区,AWS EMR Presto 集群中必须至少有一个主节点启动且 运行。但是因为它被终止了,整个集群也被终止了。