【发布时间】:2011-05-06 22:49:28
【问题描述】:
较新的 NVIDIA GPU 支持 __popc(x) 指令,该指令计算 32 位寄存器中设置的位数。
我是 99% OpenCL 不支持内联汇编器,除非它是供应商内核扩展。
1) AMD 硬件是否支持此功能? (我不知道)。
2) 对于 OS X 和 Linux,如何截取编译成的 NVIDIA 中间语言以便插入?
我想出了如何在 PyOpenCL 中转储 PTX“二进制”,现在我只需要弄清楚如何通过修改重新插入它。
#create the program
self.program = cl.Program(self.ctx, fstr).build()
print self.program.BINARIES[0]
【问题讨论】: