GT540M 上的低性能 CUDA 代码答案

【问题标题】：Low performance CUDA code on GT540MGT540M 上的低性能 CUDA 代码
【发布时间】：2012-03-04 18:00:58
【问题描述】：

在 GeForce GT540M 上执行以下代码示例大约需要 750 毫秒，而在 GT330M 上执行相同代码大约需要 250 毫秒。

将 dev_a 和 dev_b 复制到 CUDA 设备内存需要大约 350 毫秒 GT540M 和大约 250 毫秒。 “addCuda”的执行和复制回主机在 GT540M 上需要大约 400 毫秒，在 GT330M 上需要大约 0 毫秒。

这不是我所期望的，所以我检查了设备的属性，发现 GT540M 设备除了多处理器数量之外，其他方面都超过或等于 GT330M - GT540M 有 2 个，GT330M 有 6 个。这真的是真的吗?如果是这样，它真的会对执行时间产生如此大的影响吗？

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <math.h>

#define T 512
#define N 60000*T

__global__ void addCuda(double *a, double *b, double *c) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if(tid < N) {
        c[tid] = sqrt(fabs(a[tid] * b[tid] / 12.34567)) * cos(a[tid]);
    }
}

int main() {
    double *dev_a, *dev_b, *dev_c;

    double* a = (double*)malloc(N*sizeof(double));
    double* b = (double*)malloc(N*sizeof(double));
    double* c = (double*)malloc(N*sizeof(double));

    printf("Filling arrays (CPU)...\n\n");
    int i;
    for(i = 0; i < N; i++) {
        a[i] = (double)-i;
        b[i] = (double)i;
    }

    int timer = clock();
    cudaMalloc((void**) &dev_a, N*sizeof(double));
    cudaMalloc((void**) &dev_b, N*sizeof(double));
    cudaMalloc((void**) &dev_c, N*sizeof(double));
    cudaMemcpy(dev_a, a, N*sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, N*sizeof(double), cudaMemcpyHostToDevice);

    printf("Memcpy time: %d\n", clock() - timer);
    addCuda<<<(N+T-1)/T,T>>>(dev_a, dev_b, dev_c);
    cudaMemcpy(c, dev_c, N*sizeof(double), cudaMemcpyDeviceToHost);

    printf("Time elapsed: %d\n", clock() - timer);

cudaFree(dev_a);
cudaFree(dev_b);
cudaFree(dev_c);
free(a);
free(b);
free(c);

return 0;
}

设备的设备属性：

GT540M：

Major revision number:         2
Minor revision number:         1
Name:                          GeForce GT 540M
Total global memory:           1073741824
Total shared memory per block: 49152
Total registers per block:     32768
Warp size:                     32
Maximum memory pitch:          2147483647
Maximum threads per block:     1024
Maximum dimension 0 of block:  1024
Maximum dimension 1 of block:  1024
Maximum dimension 2 of block:  64
Maximum dimension 0 of grid:   65535
Maximum dimension 1 of grid:   65535
Maximum dimension 2 of grid:   65535
Clock rate:                    1344000
Total constant memory:         65536
Texture alignment:             512
Concurrent copy and execution: Yes
Number of multiprocessors:     2
Kernel execution timeout:      Yes

GT330M

Major revision number:         1
Minor revision number:         2
Name:                          GeForce GT 330M
Total global memory:           268435456
Total shared memory per block: 16384
Total registers per block:     16384
Warp size:                     32
Maximum memory pitch:          2147483647
Maximum threads per block:     512
Maximum dimension 0 of block:  512
Maximum dimension 1 of block:  512
Maximum dimension 2 of block:  64
Maximum dimension 0 of grid:   65535
Maximum dimension 1 of grid:   65535
Maximum dimension 2 of grid:   1
Clock rate:                    1100000
Total constant memory:         65536
Texture alignment:             256
Concurrent copy and execution: Yes
Number of multiprocessors:     6
Kernel execution timeout:      Yes

【问题讨论】：

首先要说明的是，GT330M 不支持双精度，因此您将一个设备上的单精度结果与另一个设备上的双精度结果进行比较。在当前硬件上，两者之间存在 8 倍的性能差异。您是否还可以在您的问题中添加每个运行的操作系统和 CUDA 版本，这些是移动部件，因此它们显然不在同一台主机上运行。
总的来说，我认为您需要在 CUDA 上对更大的作业进行基准测试，以超过设置/拆卸时间。令人惊讶的是，旧卡可以更有效地做到这一点，但这真的是您实际应用中的一个因素吗？
机器 1：GT540M（计算能力 2.1）CUDA 版本 4.1 Intel Core i5-2410M Windows 7 64bit。机器 2：GT330M（计算能力 1.2）CUDA 版本 4.1 Intel Core i5-520M Windows 7 64bit on bootcamp for Mac。在 CPU 上计算类似的加法函数大约需要 2500 毫秒（在两台机器上）。我试图用浮点数替换所有双打，看看它是否改变了任何东西，但它没有。即使应用程序不需要，GPU 是否仍然使用双精度？

标签： c performance cuda gpgpu nvidia

【解决方案1】：

我认为从设备到主机的复制不可能是 ~0 毫秒。我建议检查该副本是否存在stg错误

【讨论】：

从主机到设备的复制不知何故出错了，我用来检查结果的功能有问题..看起来GT540M确实比规格更快。

【解决方案2】：

查看多处理器的数量。

【讨论】：

对不起，但这并不能解释任何事情。一个具有 8 个内核的 6 MP，每 4 个时钟周期只能淘汰一个精度 FMAD 进行一次扭曲。另一个具有 48 个内核 的 2 MP，每个内核可以每 2 个时钟周期将单个精度 FMAD 淘汰 两个 warp，而且它的时钟速率提高了 20%。两者都可以执行有限的指令级并行，在 GT300M 的情况下它只是一个潜在的单精度乘法，在 GT540M 中它可以是一个单精度的 FMAD。