【问题标题】:Can CUDA code damage a GPU?CUDA 代码会损坏 GPU 吗?
【发布时间】:2015-07-18 07:00:03
【问题描述】:

在测试一块包含内存错误的 CUDA 时,我的屏幕被冻结了。重新启动后,我无法再检测到显卡。我的代码是否有可能物理损坏了卡?

这发生在 Ubuntu 14.04 下。我不知道卡的型号,因为我无法检测到它,但我记得它是一张相当新的卡。

【问题讨论】:

  • 您可以尝试重新安装驱动程序并重置卡 BIOS 吗?也许联系 NVIDIA 支持。
  • 拔掉,插上,看看主板是否记得卡。可能是 bios overvolting 问题,需要刷新。

标签: cuda nvidia


【解决方案1】:

感谢所有的 cmets 我解决了这个问题。

我将列出我所采取的行动。我不确定它们是否都有效果,但最终问题得到了解决。

首先我断开了显卡并在没有它的情况下重新启动。之后我再次插入卡并重新启动。我被扔到一个菜单,据说我在低图形模式下运行。我打开tty (ctrl+alt+1) 并尝试使用说明here 重新安装Nvidia 驱动程序。

它最初失败是因为新驱动程序正在运行(我认为这是整个问题的罪魁祸首)。

我将link之后的司机列入黑名单。

总而言之,创建文件 /etc/modprobe.d/blacklist-nouveau.conf 并添加:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

然后我重新启动。那时我的屏幕开始正常工作,但我无法启动ubuntu 桌面。我重新安装了 cuda 驱动程序(有一些错误但不是致命错误)。

然后我重新启动,我的屏幕又可以工作了。

回答主要问题:我通过测试CUDA代码没有损坏显卡。

【讨论】:

    【解决方案2】:

    我在处理 GPU 密集型代码时遇到了同样的问题,罪魁祸首是 GPU 没有正确冷却;在制造商用 C2075(几乎相同的 GPU,但具有主动冷却功能)替换 m2090 后,不再有问题。在此之前,我们更换了 MOBO 和 GPU,没有任何改进。

    GPU没有损坏,它只是进入了保护模式,冷却后又可以正常工作了。

    【讨论】:

    • 事件发生在几个小时前,卡仍然死机......我并没有做太多繁重的工作,而是试图找到一个错误。你怎么看?
    • 已尝试将主机从所有电源上拔下半分钟?对于此类问题,通常需要完全重启主机。
    猜你喜欢
    • 2016-06-02
    • 2011-02-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-11-26
    • 1970-01-01
    • 2015-12-11
    • 1970-01-01
    相关资源
    最近更新 更多