【发布时间】:2013-06-08 01:20:04
【问题描述】:
流是否可能比普通的 CUDA 程序花费更长的时间?保证运行流的数据块是独立的,并且允许从设备端在内核执行和数据传输之间重叠。
【问题讨论】:
-
您是否在分析器中运行?分析器序列化所有调用。
-
@RogerDahl 我应该如何在 linux 上安装 profiler?
-
分析器应该包含在您必须安装的 CUDA 工具包中。如果您使用的是 4.1 工具包,如果我没记错的话,它应该被称为“nvvp”。
标签: cuda