【发布时间】:2011-06-16 22:04:27
【问题描述】:
我正在尝试在 ATI HD 6990 卡(Cayman 架构)上使用 AMD-APP-SDK 2.4 实现 GEMM。
其中一种优化技术是使用分块/平铺。
在其实现中,如果我们将子矩阵存储在共享本地内存中会更快,还是使用纹理缓存会更快?如果可能,请同时说明原因。
还请建议哪个更容易实现。
谢谢。
附:如果重要的话,我只希望它用于单精度!
注意:子矩阵的大小不是问题,但是我觉得它越大越好。唯一需要考虑的因素是如果内存单元是128位(4个单精度)那么块大小应该是4的倍数。
【问题讨论】:
标签: opencl gpgpu matrix-multiplication ati