【发布时间】:2019-04-08 12:08:12
【问题描述】:
我有一个被多次调用的内核。在每次调用中,大约 240 KB 的常量数据将由线程共享和处理。线程像地图函数一样独立工作。线程的停顿时间相当长。其背后的原因可能是内存读取的银行冲突。我该如何处理?(我有 GTX 1080 ti)
opencl 的“const global”可以处理这个吗? (因为 cuda 中的常量内存限制为 64 kb)
【问题讨论】:
-
银行冲突极不可能对您所看到的情况负责。提出对策需要对您的用例进行详细描述,而您未能提供
-
您可以将访问索引打包到一个均匀递增的数组中,并重新排序工作项以适应它们,以便合并访问?