CUDA Stream compaction：理解概念答案

【问题标题】：CUDA Stream compaction: understanding the conceptCUDA Stream compaction：理解概念
【发布时间】：2012-01-13 08:37:25
【问题描述】：

我正在使用 CUDA/Thrust/CUDPP。据我了解，在流压缩中，数组中的某些项目被标记为无效，然后被“删除”。

现在“移除”在这里的真正含义是什么？假设原始数组 A 长度为 6。如果 2 个元素无效（无论我们提供什么条件），那么

对于任何一种情况，这是否意味着动态内存分配是在后台进行的？但我听说动态内存分配在 CUDA 世界中是不可能的。

【问题讨论】：

还有一种可能，就是内存分配的大小不变，前4个元素有效，后2个未定义。但实际上这个问题都是关于实现问题的，谁说 CUDPP 或推力是一样的？
ArrayFire 是比 Thrust 更好/更简单的选择，而且也是免费的，至少对于单 GPU 使用而言是这样。 accelereyes.com/arrayfire

【解决方案1】：

首先，CUDA 在 Compute Capability 2.0 及更高版本的设备上可以进行动态内存分配。 CUDA 运行时库支持 __device__ 函数中的 malloc/free 和 new/delete。但这与答案无关，真的。

通常会提供足够大的输出数组（预先分配，通常与输入数组大小相同）并将输出写入其中。不需要动态分配，但存在潜在的存储浪费。这就是 CUDPP 和推力所做的。另一种方法是首先执行有效元素的计数，然后使用从主机 CPU 调用的 cudaMalloc 动态分配输出 GPU 内存。

【讨论】：