用于科学计算的 Cayman Architecture 中的本地数据存储与纹理缓存答案

【问题标题】：Local data store vs. Texture cache in Cayman Architecture for scientific computation用于科学计算的 Cayman Architecture 中的本地数据存储与纹理缓存
【发布时间】：2011-06-16 22:04:27
【问题描述】：

我正在尝试在 ATI HD 6990 卡（Cayman 架构）上使用 AMD-APP-SDK 2.4 实现 GEMM。

其中一种优化技术是使用分块/平铺。

在其实现中，如果我们将子矩阵存储在共享本地内存中会更快，还是使用纹理缓存会更快？如果可能，请同时说明原因。

还请建议哪个更容易实现。

谢谢。

附：如果重要的话，我只希望它用于单精度！

注意：子矩阵的大小不是问题，但是我觉得它越大越好。唯一需要考虑的因素是如果内存单元是128位（4个单精度）那么块大小应该是4的倍数。

【问题讨论】：

标签： opencl gpgpu matrix-multiplication ati

【解决方案1】：

Cypress 芯片用于 5800 系列 Radeon。 6900 系列使用 Cayman 内核，它有几个重要的区别，最值得注意的是它是 VLIW4 架构，而不是早期内核中使用的 VLIW5 配置。

与往常一样，了解哪种方法更快的唯一确定方法是对其进行基准测试。特别是，由于您没有提供有关子矩阵大小的信息，因此很难说它们最适合哪里。

【讨论】：

哦！我的错。我通过编辑更正了它。是的，基准测试总是存在的，但我在这里发布了这个问题，以了解它的理论方面。