【发布时间】:2020-09-27 17:31:48
【问题描述】:
我正在尝试实现一个使用统一内存的 CUDA 程序。我有两个统一的数组,有时它们需要自动更新。
下面的问题有针对单 GPU 环境的答案,但我不确定如何扩展问题中给出的答案以适应多 GPU 平台。
问题:cuda atomicAdd example fails to yield correct output
如果您需要此信息,我有 4 个 Tesla K20,所有这些都更新了必须以原子方式完成的部分阵列。
如果有任何帮助/建议,我将不胜感激。
【问题讨论】:
-
你不能用你所拥有的硬件做你想做的事
-
Tesla K20(计算能力 3.5)不支持超出单个 GPU 的原子,请参阅 here,无论有无统一内存。
-
@talonmies 我在一个集群上,我可以请求另一个节点,所以硬件的生成不是问题。现在,我怎样才能实现这种原子增量?
-
@RobertCrovella 哦,我现在看到指南了,谢谢!!
-
如果您有 6.x 或更好的硬件,请使用原子的
_system变体。它在我已经链接的编程指南中。
标签: cuda atomic unified-memory