【问题标题】:Instance does not boot after adding a GPU添加 GPU 后实例无法启动
【发布时间】:2018-02-20 13:21:45
【问题描述】:

我们正在使用 GCE,我们想为我们的一个实例添加一个 GPU。

我做了以下步骤: * 停止实例 * 添加了 K80 GPU * 已保存 * 启动实例

它不再启动。我已经尝试启动它 4 次了,但都失败了。 我有 3 个错误代码:

  • 代码:'-5246221063224473180'
  • 代码:'-3053251512212947706'
  • 代码:'-7047116650960579979'
  • 代码:'-8365157783958652779'

这可能与问题有关。

Machine type
n1-standard-4 (4 vCPUs, 15 GB memory)
CPU platform
Unknown CPU Platform
GPUs
1 x NVIDIA Tesla K80

实例位于 europe-west1-b

~$ gcloud compute zones describe europe-west1-b
availableCpuPlatforms:
- Intel Skylake
- Intel Broadwell
- Intel Haswell
- Intel Sandy Bridge

【问题讨论】:

    标签: google-cloud-platform google-compute-engine


    【解决方案1】:

    是的,问题可能与您的 CPU 平台类型有关。 根据文档 [1],GPU 设备只能连接到具有 Broadwell CPU 平台和最多 64 个 vCPU 的实例。 我建议使用适当的 CPU 创建一个新实例。 您可以通过运行以下命令来实现:

    gcloud compute instances create example-instance --zone europe-west1-b --min-cpu-platform "Intel Broadwell" --machine-type "n1-standard-4"
    

    [1]https://cloud.google.com/compute/docs/gpus/#restrictions

    【讨论】:

    • 感谢您的回答。我认为这可能是这里的问题。目前,它在没有 GPU 的情况下进行备份并进行一些计算。结束后,我将关闭它并使用 Broadwells 进行测试。
    • 好吧,我至少与 Broadwell 进行了核对。它以同样的方式失败。
    • 与“至少 Skylake”相同。无法使用 GPU 启动。
    • 你会发布串口的日志吗?这可能有助于解决您的问题。以及“gcloud 计算实例 [实例名称] 描述。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-06-01
    • 1970-01-01
    • 2018-12-02
    • 1970-01-01
    • 2022-10-18
    • 2020-03-19
    • 1970-01-01
    相关资源
    最近更新 更多