Tensorflow - 检查点未保存到 Sagemaker Notebook 实例

Tensorflow - Checkpoints not saving to Sagemaker Notebook Instance

我是 运行 一个 Python 脚本,在 Amazon Sagemaker 笔记本实例中使用 Tensorflow。我正常写入笔记本中的存储没有问题,但由于某种原因,我在尝试保存 Tensorflow 模型检查点时失败了。此代码在移植到 Sagemaker 之前曾有效。

下面是我的代码的简化版本:

bucket = 'sagemaker-complaints-data'    
prefix = 'DeepTestV2' # place to upload training files within the bucket
timestamp = str(int(time()))
out_dir = os.path.abspath(os.path.join(bucket, prefix, "runs", timestamp))
checkpoint_dir = os.path.abspath(os.path.join(out_dir, "checkpoints"))
checkpoint_prefix = os.path.join(checkpoint_dir, "model")
path = saver.save(sess, checkpoint_prefix, global_step=current_step)
print("Saved model checkpoint to {}\n".format(path))

没有错误被抛出并且打印语句输出正确的路径。我研究了在 Sagemaker 中使用检查点是否存在任何已知问题,但实际上没有发现任何描述此问题的帖子。

我找到了它的位置 - 出于某种原因 "checkpoints" 似乎是一个保留字 - 将字更改为 "checks" 允许我写入文件夹。希望这对某人有所帮助!