【发布时间】:2011-05-19 19:02:18
【问题描述】:
我编写了一些代码来尝试交换二维矩阵的象限以用于 FFT,该矩阵存储在平面数组中。
int leftover = W-dcW;
T *temp;
T *topHalf;
cudaMalloc((void **)&temp, dcW * sizeof(T));
//swap every row, left and right
for(int i = 0; i < H; i++)
{
cudaMemcpy(temp, &data[i*W], dcW*sizeof(T),cudaMemcpyDeviceToDevice);
cudaMemcpy(&data[i*W],&data[i*W+dcW], leftover*sizeof(T), cudaMemcpyDeviceToDevice);
cudaMemcpy(&data[i*W+leftover], temp, dcW*sizeof(T), cudaMemcpyDeviceToDevice);
}
cudaMalloc((void **)&topHalf, dcH*W* sizeof(T));
leftover = H-dcH;
cudaMemcpy(topHalf, data, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
cudaMemcpy(data, &data[dcH*W], leftover*W*sizeof(T), cudaMemcpyDeviceToDevice);
cudaMemcpy(&data[leftover*W], topHalf, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
请注意,此代码采用设备指针,并执行 DeviceToDevice 传输。
为什么这似乎运行得这么慢?这可以以某种方式优化吗?与在主机上使用常规 memcpy 进行相同操作相比,我对此进行了计时,它的速度大约慢了 2 倍。
有什么想法吗?
【问题讨论】:
-
启动 cudaMemcpy 的成本很高。最好编写一个从输入读取、交换并写入适当位置的内核,而不是将 cudaMemcpy 放在 for 循环中。
-
hrmmm..bummer。做一个主机memcpy,和传输到设备的比较呢?