【问题标题】:AWS Sagemaker - ClientError: Data download failed:Could not downloadAWS Sagemaker - ClientError:数据下载失败:无法下载
【发布时间】:2021-01-26 13:34:39
【问题描述】:

我在笔记本实例中部署训练作业时遇到错误。 这就是它所说的: "UnexpectedStatusException: Error for Training job tensorflow-training-2021-01-26-09-55-05-768: Failed. Reason: ClientError: Data download failed:Could not download s3://forex-model-data/data/train2001_2020.npz: insufficient disk space"

我部署训练作业以尝试在 3 个时期内将其运行到不同的实例。我用的是ml.c5.4xlarge、ml.c5.18xlarge、ml.m5.24xlarge,还有两组训练数据train2001_2020.npz和train2016_2020.npz。

首先,我将 train2001_2020 运行到 ml.c5.18xlarge 和 ml.c5.18xlarge 并完成训练作业,然后我切换到 train2016_2020 并将其运行到 ml.c5.4xlarge 和 ml.c5.18xlarge 并且运行良好.然后,当我尝试使用 ml.m5.24xlarge 运行它时出现错误(上面引用),但我的数据集是 train2016_2020 而不是 train2001_2020 然后当我再次使用所有其他实例重新运行它时,它有相同的错误。会发生什么?

我停止了实例并刷新了所有内容,但遇到了同样的问题。

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-sagemaker


    【解决方案1】:

    您所做的所有测试都不是很清楚,但该错误通常意味着您用于训练作业的实例上没有足够的磁盘空间。您可以尝试增加实例的额外存储空间(如果您在笔记本中使用 sagemaker SDK,则可以在估算器参数中进行)。

    【讨论】:

    • 谢谢,我在估算器参数中添加了volume_size,
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-08-02
    • 2018-07-03
    • 2017-07-31
    • 1970-01-01
    • 2017-10-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多