【发布时间】:2013-02-15 03:22:33
【问题描述】:
我有一个内核在 CC 3.0 (Kepler) 上的性能比 CC 2.0 (Fermi) 差。在 Nsight 分析器中,Warp Issue Efficiency 图表显示 60% 的时间没有符合条件的扭曲,Issue Stall Reasons 图表显示其中 60% 是由于“其他”。
我想知道其他问题停滞的原因是什么以及我可以做些什么来减少它们。
CUDA 5.0。 /Nsight 3.0。 RC / CC 3.0。
【问题讨论】:
-
感谢您提供的信息。内核是一个 PBKDF2-HMAC-SHA1 密钥扩展器。因此,它运行了大量的整数加法和按位运算。特别是,有很多 32 位整数移位,这在 Kepler 上的吞吐量很低。没有 FP 操作。我猜,在这种情况下,Other 是由于低吞吐量整数操作,所以没有太多可做的。