【问题标题】:100% GPU utilization on a GCE without any processes没有任何进程的 GCE 上 100% 的 GPU 利用率
【发布时间】:2018-10-11 11:57:47
【问题描述】:

我刚刚在具有 2 个 GPU (Nvidia Tesla K80) 的 Google Compute Engine 上启动了一个实例。并且在开始之后,我可以通过nvidia-smi 看到其中一个已经被充分利用。

我检查了正在运行的进程列表,但根本没有任何运行。这是否意味着 Google 已将同一个 GPU 出租给其他人?

这一切都在这台机器上运行:

No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.5 LTS
Release:    16.04
Codename:   xenial

【问题讨论】:

  • 我需要确定启动时发生了什么。你能提供控制台输出的日志吗?你在启动时运行什么?可能您正在运行一个在启动时使用 GPU 的进程。此外,GPU 仅供您使用,而不是由其他用户租用或使用。
  • 什么都没有运行,因为我在 GCE 上启动了一台清晰的新机器。第一次真正启动。

标签: gpu google-compute-engine nvidia tesla


【解决方案1】:

使用nvidia-smi -pm 1 启用“持久模式”可能会解决问题。 ECC 与非持久性模式相结合可实现 100% 的 GPU 利用率。

或者,您可以使用 nvidia-smi -e 0 禁用 ECC。

注意:我不确定性能是否真的更差。我记得我能够训练 ML 模型,尽管 GPU 利用率为 100%,但我不知道它是否更慢。

【讨论】:

  • 它似乎不会影响性能,但如果您远程监控您的虚拟机,它可能会产生误导。
【解决方案2】:

我建议您在需要调查时在 Google 问题跟踪器上报告并创建此问题。请在那里提供您的项目编号和实例名称。请关注此URL,这样您就可以在 Google 问题跟踪器中创建一个私有文件。

【讨论】:

  • 在控制台中几乎找不到报告此类问题的链接。您绝对应该考虑为那些没有任何支持计划的用户添加它。对我来说,就这个问题寻求帮助的唯一方法是在 StackOverflow 上发帖。
  • 您可以使用您的 Google/gmail 帐户访问上面的链接,并且您不需要支持包,因为问题跟踪器用于根据 document 报告缺陷和功能请求。但是,链接中的组件是私有的,因此您可以共享您的项目信息。
猜你喜欢
  • 2019-09-25
  • 2020-02-06
  • 2013-05-13
  • 2018-07-04
  • 2020-11-27
  • 1970-01-01
  • 2021-02-25
  • 2019-09-26
  • 1970-01-01
相关资源
最近更新 更多