【发布时间】:2015-06-19 23:45:38
【问题描述】:
我有一个包含数百万个整数值(输入)的数组。我想使用 GPU、nvidia gtx 780ti 或 gtx 980 分别对它们执行函数F(input[x]),然后将结果数组(输出)返回到主内存中,每个输出元素 output[x] 对应于输入数组元素 @ 987654324@。 F() 不包含任何浮点计算。
我如何为 gpu 正确组织这种大小数组(数百万个元素)的任务?
我正在寻找合适的 GPU 替代品:
for (int x=0; x<5000000; x++)
output[x] = F(input[x]);
【问题讨论】:
-
您也可以编写一个简单的 CUDA 内核来执行此操作。这可能是所有问题中最容易在 GPU 上“组织”的问题。看看 CUDA 矢量添加示例代码。那是
output[x] = F(input1[x], input2[x]),但是将其进一步简化为您所询问的内容是一件小事。 -
@m.s.我认为这个问题应该很容易回答。如果您想提供答案,我会投票。