AWS Sagemaker 培训工作卡在进行中状态
AWS Sagemaker training job stuck in progress state
我昨天创建了一个训练作业,和往常一样,只是增加了一些训练数据。在过去的两年里,我对此没有任何问题(完全相同的程序和代码)。这一次在 14 小时后或多或少简单地停滞了。
培训工作仍在“处理中”,但 cloudwatch 从那时起就没有记录任何东西。现在又过去了 8 个小时,日志中没有新条目,没有错误也没有崩溃。
有人可以解释一下吗?很遗憾,我没有任何 AWS 支持计划。
如下图所示,上午11点后什么都没有..
培训工作应该在接下来的几个小时内完成,但现在我不确定是否真的 运行(在这种情况下是 cloudwatch 问题)..
更新
训练作业突然失败,没有任何进一步的日志。原因是
ClientError: Artifact upload failed:Error 7: The credentials received
have been expired
但上午 11 点后日志中仍然没有任何内容。很奇怪。
对于未来的读者,我可以确认这是很少发生的事情(从那以后我再也没有经历过),但这是 AWS 的错。相同的数据,相同的算法。
我昨天创建了一个训练作业,和往常一样,只是增加了一些训练数据。在过去的两年里,我对此没有任何问题(完全相同的程序和代码)。这一次在 14 小时后或多或少简单地停滞了。 培训工作仍在“处理中”,但 cloudwatch 从那时起就没有记录任何东西。现在又过去了 8 个小时,日志中没有新条目,没有错误也没有崩溃。 有人可以解释一下吗?很遗憾,我没有任何 AWS 支持计划。 如下图所示,上午11点后什么都没有..
培训工作应该在接下来的几个小时内完成,但现在我不确定是否真的 运行(在这种情况下是 cloudwatch 问题)..
更新
训练作业突然失败,没有任何进一步的日志。原因是
ClientError: Artifact upload failed:Error 7: The credentials received have been expired
但上午 11 点后日志中仍然没有任何内容。很奇怪。
对于未来的读者,我可以确认这是很少发生的事情(从那以后我再也没有经历过),但这是 AWS 的错。相同的数据,相同的算法。