【发布时间】:2012-08-31 00:27:05
【问题描述】:
我有一个运行 Ubuntu 12.04 服务器的无头工作站,最近安装了新的 Tesla C2070 卡,但是在运行 CUDA SDK 中的示例时,我收到以下错误:
NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction
[reduction] starting...
Using Device 0: Tesla C2070
Reducing array of type int
16777216 elements
256 threads (max)
64 blocks
reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.
实际上,除了“deviceQuery”之外的所有其他示例都会出现此错误。
我正在使用内核 3.2.0、nvidia 驱动程序 295.41 和 Cuda 4.2.9。
经过大量搜索,找到了禁用 ecc 支持的建议:
nvidia-smi -g 0 --ecc-config=0
这很有效。但问题是 GPU 计算的可靠性如何 禁用 ecc 支持?
任何建议、建议或解决方案都将受到高度赞赏。
-康斯坦丁
【问题讨论】:
-
一般来说,没有ECC的GPU是相当可靠的,但是你的卡经常遇到ECC错误这一事实可能表明它有一些严重的内存问题。即使内存没问题,只是 ECC 模块本身出现故障,如果我是你,我也会尝试更换卡/退款,因为这种行为是不正常的。
标签: cuda runtime-error ubuntu-12.04 tesla