【发布时间】:2016-04-25 01:01:11
【问题描述】:
考虑到 Tk1 有单个 SM,真的可以同时运行流吗?即使使用最新版本的 cuda 库,我也无法这样做。
真的有可能吗?任何示例代码都会很棒。 cuda Blas 下的示例代码也按视觉分析器上显示的顺序运行。
还可以更好地了解“流”在单个 SM 中的好处?
[已经在 nvidia dev 论坛上问过,我认为论坛不是很活跃]
【问题讨论】:
-
并发内核执行是流并行的一个方面。 TK1 上的并发内核执行中断了一段时间。该问题应该在 TK1 的最新固件中得到纠正,因此请确保您已更新到支持 TK1 的最新 JetPack。话虽如此,并发内核执行很难目睹,因此需要特制的案例才能使其在分析器中轻松可见。除此之外,流允许复制和计算的重叠。但是由于内存是统一的,在 Jetson 上应该避免复制操作;它们应该是不必要的。
-
如原始问题所述,CUDA Blas 样本在可视化探查器中也不显示并行性。我已经在最新的喷气背包上。我想知道是否真的可以在 TK1 上同时执行内核执行。其次,它只有 1 个 SM 处理器,这与在代码中创建的 Cuda Streams 有何关系。