可以替换__shfl_xor 以便在sm_21 上运行吗？答案

【问题标题】：Can be__shfl_xor replaced in order to run on sm_21?可以替换__shfl_xor 以便在sm_21 上运行吗？
【发布时间】：2017-09-01 13:12:43
【问题描述】：

尝试运行这个： https://github.com/Celebrandil/CudaSift 在 NVS4200M 上，即 sm_21，而不是所需的 sm_35。运行上述项目的唯一问题是这段代码（cudaSiftD.cu:205）：

for (int i=1;i

是否有可能的等效代码？

【问题讨论】：

【解决方案1】：

嗯，几乎所有 CUDA 内在函数都可以替换，所以我将您的问题解释为

__shfl_xor 可以在 SM_21 GPU 上便宜替换吗？

答案是：并非如此；你会受到惩罚。正如@RobertCrovella 的评论所暗示的，你最好的选择是使用共享内存：

我没有拼出代码来不为你带走乐趣:-)

编辑： 虽然 shuffle 的执行更复杂，但至少在语义上它仍然是对寄存器的操作；它不需要同步。所以共享内存的替代方案会更慢。

【讨论】：

我不会认为 shuffle 是一个时钟周期，原因有两个：1）在多处理器上每个周期有 32 个可发布的 shuffle [docs.nvidia.com/cuda/cuda-c-programming-guide/…，2）shuffle 操作由缓存执行管理共享内存。从本质上讲，使用 shuffle 的性能大约是共享内存的两倍 - 请参阅 [on-demand.gputechconf.com/gtc/2013/presentations/…
@FlorentDUGUET：已编辑以反映您的评论。您的链接不起作用，我认为您的括号中有一些错字。
上述评论中的链接断开：docs.nvidia.com/cuda/cuda-c-programming-guide/… 和 on-demand.gputechconf.com/gtc/2013/presentations/…
@FlorentDUGUET：评论 +1 指出 shuffle 执行涉及访问共享内存的机制。
是的，我知道有一个“价格”（也就是惩罚）。问题是 - 我不熟悉 CUDA API，所以我自己编写代码不是我的选择，至少现在是这样。我只是在寻找可以与 Python 一起使用的 SIFT 的 CUDA 加速实现。我找到了，但遇到了问题中描述的问题。无论如何，谢谢你试图帮助我！

【解决方案2】：

如果问题更多是关于如何用与 sm_21 兼容的代码替换此 sn-p 代码，您可能需要关注 CUB，即块缩减部分 here。模板参数之一是您设备的架构。

__CUDA_ARCH__ 宏可以帮助您选择最合适的实现，请参阅here。

【讨论】：