【发布时间】:2012-08-09 14:22:43
【问题描述】:
我目前正在尝试使用 CUDA 例程创建一个库,但遇到了麻烦。我将使用一个相当简单的示例来解释我的问题,我的实际库会更大。
我已经成功编写了test.cu,一个包含__global__ CUDA 函数和围绕它的包装器(用于分配和复制内存)的源文件。我还可以使用以下命令成功将此文件编译为共享库:
nvcc -c test.cu -o test.o -lpthread -lrt -lcuda -lcudart -Xcompiler -fPIC
gcc -m64 -shared -fPIC -o libtest.so test.o -lpthread -lrt -lcuda -lcudart -L/opt/cuda/lib64
生成的 libtest.so 导出所有我需要的符号。
我现在编译我的纯 C main.c 并将其链接到我的库:
gcc -std=c99 main.c -o main -lpthread -ltest -L.
这一步也成功了,但是在执行./main时,所有被调用的CUDA函数都会返回错误:
test.cu:17:cError(): cudaGetDeviceCount: [38] no CUDA-capable device is detected
test.cu:17:cError(): cudaMalloc: [38] no CUDA-capable device is detected
test.cu:17:cError(): cudaMemcpy: [38] no CUDA-capable device is detected
test.cu:17:cError(): cudaMemcpy: [38] no CUDA-capable device is detected
test.cu:17:cError(): cudaFree: [38] no CUDA-capable device is detected
(错误消息是通过我自己的调试功能创建的)
在我最初的步骤中,我遇到了完全相同的问题,因为我直接从test.cu 创建了一个可执行文件,因为我忘记了链接到 libpthread (-lpthread)。但是,正如您在上面看到的,我已经将所有源文件链接到 libpthread。根据ldd,libtest.so 和main 都依赖于 libpthread,因为它应该是。
我在 ArchLinux 上使用带有 gcc 4.6.3 和 nvidia 驱动程序版本 302.06.03 的 CUDA 5(是的,我确实意识到它是一个测试版)。
对于解决这个问题的一些帮助将不胜感激!
【问题讨论】:
-
您确定这不仅仅是线程关联问题吗?无论哪个线程在设备上创建/持有上下文,都是唯一可以使用该设备的线程。如果希望多个线程使用上下文,则需要使用上下文迁移 API。
-
因为我没有分叉或任何东西,如果我没有大错特错的话,应该只有一个线程。
-
很抱歉问了这么明显的问题,但是您有支持 CUDA 的设备吗?您是否检查过其他 CUDA 代码是否可以在相同的工具包/驱动程序中正常工作?
-
@Tom:不用担心 :-) 是的,我确实有一个支持 CUDA 的设备。其他 CUDA 代码完美运行。我还测试了将我的测试代码与 main 函数一起编译成一个可执行文件,它也可以正常工作。
标签: gcc linker cuda pthreads ld