【发布时间】:2013-06-08 02:37:51
【问题描述】:
我想比较单个 Intel CPU 内核的速度与单个 nVidia GPU 内核的速度(即:单个 CUDA 代码、单个线程)。我确实实现了以下简单的 2d 图像卷积算法:
void convolution_cpu(uint8_t* res, uint8_t* img, uint32_t img_width, uint32_t img_height, uint8_t* krl, uint32_t krl_width, uint32_t krl_height)
{
int32_t center_x = krl_width / 2;
int32_t center_y = krl_height / 2;
int32_t sum;
int32_t fkx,fky;
int32_t xx,yy;
float krl_sum = 0;
for(uint32_t i = 0; i < krl_width*krl_height; ++i)
krl_sum += krl[i];
float nc = 1.0f/krl_sum;
for(int32_t y = 0; y < (int32_t)img_height; ++y)
{
for(int32_t x = 0; x < (int32_t)img_width; ++x)
{
sum = 0;
for(int32_t ky = 0; ky < (int32_t)krl_height; ++ky)
{
fky = krl_height - 1 - ky;
for(int32_t kx = 0; kx < (int32_t)krl_width; ++kx)
{
fkx = krl_width - 1 - kx;
yy = y + (ky - center_y);
xx = x + (kx - center_x);
if( yy >= 0 && yy < (int32_t)img_height && xx >= 0 && xx < (int32_t)img_width )
{
sum += img[yy*img_width+xx]*krl[fky*krl_width+fkx];
}
}
}
res[y*img_width+x] = sum * nc;
}
}
}
CPU 和 GPU 的算法相同。我还制作了另一个与上面几乎相同的 GPU 版本。唯一的区别是我在使用 img 和 krl 数组之前将它们转移到共享内存中。
我使用了 2 张尺寸为 52x52 的图像,我得到了以下性能:
- CPU:10 毫秒
- GPU:1338 毫秒
- GPU(内存):1165 毫秒
CPU 是 Intel Xeon X5650 2.67GHz,GPU 是 nVidia Tesla C2070。
为什么我会得到这样的性能差异?对于这个特定的代码,单个 CUDA 内核看起来要慢 100 倍!有人可以向我解释为什么吗?我能想到的原因是
- CPU 的更高频率
- CPU 进行分支预测。
- CPU 可能有更好的缓存机制?
您认为造成这种巨大性能差异的主要问题是什么?
请记住,我想比较单个 CPU 线程和单个 GPU 线程之间的速度。我并不是要评估 GPU 的计算性能。我知道这不是在 GPU 上进行卷积的正确方法。
【问题讨论】:
-
为什么它只会慢 5-10 倍?您正在比较两个 非常 不同的多线程架构。 GPU 仅依赖于 SIMD(或 SIMT)算法。仅使用一个线程来评估 GPU 的计算能力绝对没有意义......
-
这个“慢 5-10 倍”是错误的。我会删除它。我并不是要评估 GPU 的计算能力。也许我在第一篇文章中不是很清楚。我试图理解为什么单个 CUDA 内核和单个 CPU 内核之间存在如此巨大的性能差异。
-
将 CPU 上的 1 个线程与 GPU 上的 1 个线程进行比较,这意味着只有 1 个 SM 的 warp 调度程序。 CPU 内核出现故障,具有分支预测、预取、微操作重排序,L1 快 10 倍,L2 快 10 倍,每个周期调度指令多 6 倍,内核频率快 4.6 倍。 Fermi 架构并未针对单线程性能进行优化。如果合并所有内存操作,则将线程数增加到 32 是免费的。由于延迟隐藏,将 warp 计数增加到 8-12/SM 也接近免费。
-
感谢 BenC 和 Greg 的回复。所以,如果我们假设我的 GPU 只有一个 CUDA 核心,我的代码并没有真正的错误,对吧?这只是 CPU 更复杂的事实。
-
他们都有自己的特点。 CPU 线程非常适合任务并行性,而 GPU 线程将在数据并行性方面脱颖而出。必须了解 CPU 和 GPU 的底层架构才能使任何比较有价值。 SM 无法以比 32(warp)更细的粒度执行指令,因此即使您认为只使用一个线程,实际上也有 31 个线程在等待,什么也不做。你不会用电锯修剪盆景树。好吧,你也不会在 GPU 上只使用一个线程。
标签: performance cuda gpgpu convolution