【发布时间】:2019-11-19 12:41:28
【问题描述】:
我是 GPU 编程的新手,我不确定什么会导致最高效的代码。使用 Thrust 与编写自定义内核并自己管理内存的优缺点是什么?
如果有助于详细说明我的目标是什么:我有一个大矩阵,对于每个值,我需要执行一些向量运算。我知道我需要动态并行来完成这项任务,并且目前有一个自定义内核来遍历将调用其他内核的矩阵。我正在考虑是否应将内核替换为 Thrust 调用(例如,thrust::for_each)和/或是否应在内核中使用 Thrust 进行向量操作。
【问题讨论】: