【发布时间】:2013-01-25 20:03:19
【问题描述】:
更好 = 更快。
我问的是一般情况,但是考虑一个情况,当我的“工作人员”比数据多时——它是否比每个块的最后一个线程保持不使用更好,或者每个网格的最后一个块不使用更好?
【问题讨论】:
-
您无法给出最佳内核启动配置的一般答案。它始终取决于寄存器、共享内存等的使用。您可以使用cuda occupancy calculator 来查看内核配置将如何使用 gpu 的容量。
-
好的,我理解你的意思,但我也会理解所涉及的内容,最后,理解要调整的内容。所以对于像我这样的初学者,假设我有输入数组,当每个元素乘以 2 时,我必须生成输出数组。