【问题标题】:Unable to Start gcloud instance with more GPUs despite increasing quota尽管配额增加,但无法使用更多 GPU 启动 gcloud 实例
【发布时间】:2019-04-14 02:19:52
【问题描述】:

使用 gcloud 套件相对较新,我无法使用更多 GPU 启动我的实例。最初添加第一个 GPU 在请求增加配额时没有问题。

但是,当我请求再次增加我的 GPU 配额以缩短模型的训练时间时,在获得批准并将另一个 GPU 分配给我的实例后,我仍然收到一条错误消息,指出我的实例无法启动,因为它超出了尽管在管理控制台中看到配额为 2,但分配的配额为 1。

控制台:

错误:

启动实例 my-fastai-instance...失败。
错误:(gcloud.compute.instances.start)超出配额“PREEMPTIBLE_NVIDIA_T4_GPUS”。限制:us-west1 地区为 1.0。

为了让额外的 GPU 与实例一起工作,我还需要进行其他更改吗?

【问题讨论】:

    标签: google-cloud-platform gcloud


    【解决方案1】:

    很遗憾,“NVIDIA T4 GPU”和“抢占式 NVIDIA T4 GPU”之间存在区别。

    “NVIDIA T4 GPU”的配额为 2,我假设“Preemptible NVIDIA T4 GPU”的配额为 1。

    和以前一样,您需要按地区请求这些。

    注意您应该能够立即将您的实例从请求“Preemptible NVIDIA T4 GPUs”切换到“NVIDIA T4 GPUs”

    【讨论】:

    • 感谢您指出这一点,我不知道这一点。有没有一种直接的方法可以将我的实例更改为不可抢占?我在我的实例的编辑面板中,看到显示的可抢占属性,但没有选项或方法可以更改它,这让我认为它需要重新创建或克隆?出于成本原因,我很可能会保持可抢占性,但通过 gcloud 文档搜索也没有真正明确提及这一点(只有更改属性应该在编辑中完成)。
    • 实例一经创建就无法更改其抢占性。它可能会让人感觉更加繁重(尤其是如果您更喜欢使用控制台),但最好的做法是 (a) 编写云配置命令; (b) 不是编辑而是重新创建资源。许多控制台页面包括“显示等效的 REST 或命令行”功能,这可用于熟悉 Cloud SDK(又名“gcloud”)命令行。目的是能够(重新)创建例如随时从头开始创建 VM。说得通?希望您的抢占式 GPU 配额请求已获批准。
    猜你喜欢
    • 2019-08-27
    • 1970-01-01
    • 2020-08-09
    • 2019-10-15
    • 1970-01-01
    • 1970-01-01
    • 2021-04-21
    • 2018-09-01
    • 2013-08-25
    相关资源
    最近更新 更多