【发布时间】:2013-12-08 02:35:06
【问题描述】:
考虑以下情况:
//thread 0 on device 0:
cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0;
...
//thread 1 on device 1:
cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1;
两个 memcpy 操作能否同时发生并获得双倍的主机设备带宽(只要主机内存带宽足够)?如果答案是肯定的,那么这种并发性是否有上限?
我计划为单个计算节点中的许多 (6-8) 个 GPU 编写一些程序,因此这对性能非常关键。
【问题讨论】:
标签: cuda gpu cuda-streams