【发布时间】:2014-07-09 15:49:33
【问题描述】:
我正在尝试使用 Nsight IDE 对我的代码进行性能分析。
我举了一个矩阵加法的简单例子。
我这样称呼我的内核:
VecAddBLOCK_SIZE>>>(dA,dB,dC,BLOCK_SIZEBLOCK_SIZE);
这里 BLOCK_SIZE 是 16。
__global__ void VecAdd(float *dA, float *dB, float *dC, int N)
{
int i = threadIdx.x;
if (i < N)
dC[i] = dA[i] + dB[i];
}
在进行占用分析时,
我的 Active warp 达到 0.97。
我不知道为什么。
我已附上一份报告。有人可以解释一下为什么会这样吗?
【问题讨论】:
-
您正在运行 one 单个 16*16 块?我不确定这对于合理的个人资料是否足够。
-
我从 16*16 线程和 1 个块开始,因为我想查看性能分析。现在我的目标是增加入住率。
标签: c++ visual-studio-2010 cuda nvidia nsight