【发布时间】:2021-01-26 13:34:39
【问题描述】:
我在笔记本实例中部署训练作业时遇到错误。
这就是它所说的:
"UnexpectedStatusException: Error for Training job tensorflow-training-2021-01-26-09-55-05-768: Failed. Reason: ClientError: Data download failed:Could not download s3://forex-model-data/data/train2001_2020.npz: insufficient disk space"
我部署训练作业以尝试在 3 个时期内将其运行到不同的实例。我用的是ml.c5.4xlarge、ml.c5.18xlarge、ml.m5.24xlarge,还有两组训练数据train2001_2020.npz和train2016_2020.npz。
首先,我将 train2001_2020 运行到 ml.c5.18xlarge 和 ml.c5.18xlarge 并完成训练作业,然后我切换到 train2016_2020 并将其运行到 ml.c5.4xlarge 和 ml.c5.18xlarge 并且运行良好.然后,当我尝试使用 ml.m5.24xlarge 运行它时出现错误(上面引用),但我的数据集是 train2016_2020 而不是 train2001_2020 然后当我再次使用所有其他实例重新运行它时,它有相同的错误。会发生什么?
我停止了实例并刷新了所有内容,但遇到了同样的问题。
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-sagemaker