【发布时间】:2011-12-26 05:28:03
【问题描述】:
您是否建议阅读内核的 PTX 代码以进一步优化内核?
一个例子:我读到,如果自动循环展开有效,可以从 PTX 代码中找出。如果不是这种情况,则必须在内核代码中手动展开循环。
- PTX 代码还有其他用例吗?
- 您是否查看您的 PTX 代码?
- 在哪里可以找到如何读取 CUDA 为我的内核生成的 PTX 代码?
【问题讨论】:
-
可以反汇编二进制代码。您应该查看 IMO,以避免陷入“我认为它会优化那种”类型的陷阱,并且能够在优化内核时看到您实际在做什么。
标签: performance cuda gpgpu ptx loop-unrolling