在 AWS Sagemaker 培训期间从检查点重新加载

Reloading from checkpoing during AWS Sagemaker Training

Sagemaker 是训练模型的绝佳工具,我们通过使用 AWS spot 实例节省了一些钱。但是,训练作业有时会在中间停止。我们正在使用一些机制在重启后从最新的检查点继续。另见 docs.

不过,您如何有效地测试这种机制?可以自己触发吗?否则,您必须等到 spot 实例实际重新启动。

此外,您希望为此使用链接的 checkpoint_s3_uri 参数还是 model_dir?例如。 TensorFlow 估计器 docs 似乎建议 model_dir 用于检查点。

由于您无法手动终止 sagemaker 实例,运行 Amazon SageMaker Managed Spot 训练少量时期,Amazon SageMaker 会将您的检查点文件备份到 S3。检查检查点是否在那里。现在 运行 第二次训练 运行,但这次将第一个作业的检查点位置提供给 checkpoint_s3_uri。参考是here,这也回答了你的第二个问题。