AWS Sagemaker - ClientError: Data download failed:Could not download

AWS Sagemaker - ClientError: Data download failed:Could not download

我在笔记本实例中部署训练作业时遇到错误。 这就是它所说的: "UnexpectedStatusException: Error for Training job tensorflow-training-2021-01-26-09-55-05-768: Failed. Reason: ClientError: Data download failed:Could not download s3://forex-model-data/data/train2001_2020.npz: insufficient disk space"

我部署训练作业以尝试 运行在 3 个时期内将其应用于不同的实例。我用的是ml.c5.4xlarge,ml.c5.18xlarge,ml.m5.24xlarge,还有两组训练数据,train2001_2020.npz和train2016_2020.npz。

首先,我 运行 train2001_2020 到 ml.c5.18xlarge 和 ml.c5.18xlarge 并且训练工作完成,然后我切换到 train2016_2020 和 运行 它到 ml.c5.4xlarge 和 ml.c5.18xlarge 并且一切顺利。然后当我尝试使用 ml.m5.24xlarge 运行 它时,我得到了一个错误(上面引用),但是我的数据集是 train2016_2020 而不是 train2001_2020 然后当我重新 运行它与所有其他实例再次出现相同的错误。发生了什么?

我停止了实例并刷新了所有内容,但我遇到了同样的问题。

并不是很清楚您正在做的所有测试,但该错误通常意味着您用于训练作业的实例上没有足够的磁盘 space。您可以尝试增加实例的额外存储(如果您在笔记本中使用 sagemaker SDK,则可以在估算器参数中执行)。