AWS SageMaker: CapacityError: Unable to provision requested ML compute capacity.

AWS SageMaker: CapacityError: Unable to provision requested ML compute capacity.

我们是 运行 类型 (1) ml.p3.8xlarge 和 (2) ml.p3.2xlarge[ 的两个 TrainingJob 实例=21=]。

每个训练作业都是 运行 带有 Tensorflow 和 Keras 后端的自定义算法。

实例 (1) 运行 正常,而实例 (2) 在报告的训练时间为 1 小时后,在 CloudWatch 中进行任何日志记录(任何文本牵引日志)后,退出并出现此错误:

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定这条消息是什么意思。

此消息表示 SageMaker 尝试启动实例,但 EC2 没有足够的容量容纳此实例,因此在等待一段时间(在本例中为 1 小时)后,SageMaker 放弃并导致训练作业失败。

有关 ec2 容量问题的更多信息,请访问: troubleshooting-launch-capacity

要解决此问题,您可以按照失败原因中的建议尝试使用不同实例类型的 运行 个作业,或者等待几分钟,然后按照 EC2 的建议再次提交您的请求。