【问题标题】:CUDA streams taking longer timeCUDA 流需要更长的时间
【发布时间】:2013-06-08 01:20:04
【问题描述】:

流是否可能比普通的 CUDA 程序花费更长的时间?保证运行流的数据块是独立的,并且允许从设备端在内核执行和数据传输之间重叠。

【问题讨论】:

  • 您是否在分析器中运行?分析器序列化所有调用。
  • @RogerDahl 我应该如何在 linux 上安装 profiler?
  • 分析器应该包含在您必须安装的 CUDA 工具包中。如果您使用的是 4.1 工具包,如果我没记错的话,它应该被称为“nvvp”。

标签: cuda


【解决方案1】:

要观察流之间的叠加,您应该使用带有conckerneltrace 选项的命令行分析器。您还可以将分析输出保存为 .csv 文件并将其导入 Visual Profiler。请参阅 NVIDIA 论坛帖子

CUDA stream performance

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-04-28
    • 1970-01-01
    • 1970-01-01
    • 2018-07-28
    • 2010-12-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多