【发布时间】:2012-01-29 10:09:50
【问题描述】:
我正在使用 Tesla C2050,它具有 2.0 的计算能力并具有共享内存 48KB。但是当我尝试使用这个共享内存时,nvcc 编译器给了我以下错误
Entry function '_Z4SAT3PhPdii' uses too much shared data (0x8020 bytes + 0x10 bytes system, 0x4000 max)
我的 SAT1 是扫描算法的幼稚实现,并且因为我正在处理 4096x2160 顺序的图像大小,所以我必须使用 double 来计算累积和。尽管Tesla C2050 不支持双精度,但它仍然通过将其降级为浮动来完成任务。但是对于 4096 的图像宽度,共享内存大小要大于 16KB,但在 48KB 的限制范围内。
谁能帮我理解这里发生了什么。我正在使用 CUDA 工具包 3.0
【问题讨论】:
标签: cuda shared-memory nvidia