【发布时间】:2015-11-30 07:49:29
【问题描述】:
大多数并行缩减算法使用共享(本地)内存。
英伟达、AMD、英特尔等。
但如果设备没有共享(本地)内存。
我该怎么做?
如果我使用相同的算法但将临时值存储在全局内存中,它会正常工作吗?
【问题讨论】:
-
是的,使用全局内存应该可以正常工作,但是: * 你必须为所有工作组分配足够的全局内存,并为工作组分配它们的内存块 * 你必须使用
CLK_GLOBAL_MEM_FENCE而不是CLK_LOCAL_MEM_FENCE* 您将损失大量性能
标签: opencl reduction prefix-sum