【发布时间】:2015-09-30 11:00:25
【问题描述】:
我编写了以下简单的 CUDA 内核:
__global__ void pr_kernel(float* O, const float* I, const float* W, int N)
{
int x = threadIdx.x;
float sum;
int i;
if (x < N) {
for (i = 0; i < N; i++) {
if (i == x) continue;
sum += W[x*N+i] * I[x];
}
O[x] = (0.15 / N) + 0.85 * sum;
}
}
Python中变量的分配方式如下:
N = np.int32(4)
W = np.float32(np.asarray(
[0, 1, 0, 1, 1, 0, 1, 1,
0, 1, 0, 1,1, 1, 0]))
I = np.float32(np.asarray(
[0.25, 0.25, 0.25, 0.25]))
O = np.float32(np.zeros(N))
我正在使用 gpuarray.to_gpu 传输变量,并且我正在使用以下行调用 Tesla C2070 上的内核:
pr_kernel(O_d, I_d, W_d, N_d, block=blocksize, grid=gridsize)
地点:
blocksize = (128, 1, 1)
gridsize = (1, 1)
我收到错误消息:
pycuda.driver.LaunchError: cuLaunchKernel failed: launch out of resources.
即使我将块大小减小到 (8, 1, 1) 之类的值,也会发生这种情况。我可以在 GPU 上以 (512, 1, 1) 的块大小运行其他 CUDA 程序,所以我确信这不是由于 GPU 配置问题造成的。
我做错了什么?感谢您的帮助。
【问题讨论】:
-
这不可能是您的实际内核。 tid 在哪里定义?我在哪里定义(小)?为什么不直接剪切并粘贴到您的实际内核中?
-
抱歉,实际内核位于 VirtualBox 上,由于无法复制粘贴,因此我在本地机器上发布了一个稍微过时的版本。
-
saxpy_kernel和pr_kernel一样吗?
-
是的,再次抱歉,与上述相同的问题。我修改的一些入门代码。