AWS Sagemaker 培训工作卡在进行中状态

AWS Sagemaker training job stuck in progress state

我昨天创建了一个训练作业,和往常一样,只是增加了一些训练数据。在过去的两年里,我对此没有任何问题(完全相同的程序和代码)。这一次在 14 小时后或多或少简单地停滞了。 培训工作仍在“处理中”,但 cloudwatch 从那时起就没有记录任何东西。现在又过去了 8 个小时,日志中没有新条目,没有错误也没有崩溃。 有人可以解释一下吗?很遗憾,我没有任何 AWS 支持计划。 如下图所示,上午11点后什么都没有..

培训工作应该在接下来的几个小时内完成,但现在我不确定是否真的 运行(在这种情况下是 cloudwatch 问题)..

更新

训练作业突然失败,没有任何进一步的日志。原因是

ClientError: Artifact upload failed:Error 7: The credentials received have been expired

但上午 11 点后日志中仍然没有任何内容。很奇怪。

对于未来的读者,我可以确认这是很少发生的事情(从那以后我再也没有经历过),但这是 AWS 的错。相同的数据,相同的算法。