【问题标题】:Availability of V100 and P100 on Google Compute EngineGoogle Compute Engine 上 V100 和 P100 的可用性
【发布时间】:2021-05-22 07:42:53
【问题描述】:

说明

我刚刚尝试使用我在 n1 上使用了几个月的个人帐户设置或保留用于机器学习的虚拟机,该帐户具有大约 8 GB 或更多 GB 的 RAM,以及用于机器的 P100 或 V100学习,现在尝试了至少一半的具有 P100/V100 可用性的区域,并且总是得到像这样的资源错误:

操作类型 [插入] 失败并显示消息“区域 'projects/lexical-list-285719/zones/us-central1-c' 没有足够的可用资源来满足请求。请尝试其他区域,或重试稍后。”

zone-x 中没有可用资源。我最近退出了试用期。

问题:

A) 这很常见吗?

B) 有解决办法吗?

C) 我可以做些什么(如果有的话)来获得具有这些规格或类似性能的机器?

我知道这是因为该区域没有这些规格可用,我应该尝试切换。我也知道托管实例组。但这不会那么难吧?

谷歌订完了吗?

可能的解决方案

目前我修复它的想法:

  • 多区托管组(仍需检查我的项目是否与该组兼容)
  • 遍历所有可用区域的云 shell 脚本(需要研究 shell 脚本的工作原理)

非常感谢任何对此主题有经验的人分享他们对解决方案或更好的解决方案的经验。

对我来说一个好的答案包括以下任何一项:

  • 区域切换(尝试过)

  • 较小的机器(试过了,项目不适用于太小的机器)

  • 保留(尝试过)

  • 等待(已经知道了,如果我现在想要一台机器也无济于事)

虽然我建议那些不那么持久或紧迫的问题的人只做这些。

【问题讨论】:

  • 能否提供准确的错误信息?在您尝试申请 P100/V100 的区域中,您是否有可用配额?如果没有,您是否尝试过请求增加配额?
  • 您的 GCP 帐户有多久了?你用的是私人的吗?
  • 第一次因配额失败,我请求并获得了确认的配额。 @SerhiiRohoza 几个月,是的,谢谢你帮助我
  • 我能够毫无问题地创建 GPU 虚拟机,我只在尝试创建 V100 GPU 虚拟机时收到此错误,所以我猜没有可用的 V100.... 12 小时后再次尝试但还是什么都没有。

标签: google-cloud-platform cloud virtual-machine google-compute-engine


【解决方案1】:

这不是问题,这样的事件时有发生。

此错误消息意味着 在特定区域的 Google 端没有 CPU/RAM/GPU 等可用资源。您可以在文档Troubleshooting VM creationResource availability 部分找到更多详细信息:

当您尝试在区域中请求新资源时发生资源错误 由于当前不可用而无法满足您的要求 Compute Engine 资源,例如 GPU 或 CPU。

资源错误仅适用于区域中的新资源请求并执行 不影响现有资源。资源错误与您的无关 Compute Engine 配额,并且仅适用于您在 您在发送请求时的请求,而不是所有资源 区域。

资源可用性取决于用户请求,因此是动态的。

有几种方法可以解决这个问题

  1. 尝试在另一个 zone where GPU is available(如果需要,request an increase in quota)创建您的实例。
  2. 稍等片刻再试一次。
  3. 请求一些较小的 VM(如果可能),稍后您将能够尝试请求一些更大的 VM(与 quota requests 的原理相同)。
  4. Reserve resources 为您的虚拟机提供以下文档,以避免将来出现此类问题(需要额外付款)。

【讨论】:

  • 对于刚开始遇到此问题的人来说,这是一个很好的答案。在阅读其他答案后,我已经尝试了所有这些,除了 2。所以我假设,A)是的,这很常见,B)不(因为对我来说解决方案也失败了,所以对我来说,在那一刻,没有解决办法(你不能合理地期望客户尝试所有数百种有不同的 gpu/cpu/ram/z​​one 组合)C)你不能/只是祈祷计算之神在你下次尝试时表现出怜悯。在我看来,托管组或测试可用性的脚本是可能的解决方案。
  • 我很感激,但它并不能真正解决我的问题。
  • 很抱歉听到这个消息,但在这种情况下,社区只能描述当前情况以使其更清晰,并提出一些解决方法。不幸的是,社区无法解决 GCP 方面的资源可用性问题。您可以尝试联系 Google Cloud 支持和/或 Google Cloud 销售。
  • 回到你的问题:A)它不时发生,它取决于当前的需求(如果你不使用资源预留)。 B)不,但有一些解决方法可用(在文档和我的回答中)。 C) 您可以尝试一些配置,但没有 100% 有效的解决方案。 托管实例组将使用几个虚拟机而不是 1 个强大的虚拟机,但相同的区域 CPU/RAM/GPU,因此,它取决于区域资源可用性方式作为单个 VM。
  • 感谢您的帮助
【解决方案2】:

我遇到了同样的问题,我正在尝试创建 V100,我能够通过将区域切换到 europe-west4 来使其工作。

如果您好奇,我尝试过:us-central1 中的所有子区域(失败),us-west1 中的一个子区域(失败),最后是 europe-west4(成功)。

这告诉我这是由于区域没有可用的 GPU。我真的希望谷歌不会将它列为一个选项,因为它实际上并没有提供它的能力。或者提供另一种了解方式。

【讨论】:

    猜你喜欢
    • 2013-09-19
    • 2014-01-23
    • 2018-04-28
    • 1970-01-01
    • 1970-01-01
    • 2017-05-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多