【问题标题】:Local data store vs. Texture cache in Cayman Architecture for scientific computation用于科学计算的 Cayman Architecture 中的本地数据存储与纹理缓存
【发布时间】:2011-06-16 22:04:27
【问题描述】:

我正在尝试在 ATI HD 6990 卡(Cayman 架构)上使用 AMD-APP-SDK 2.4 实现 GEMM。

其中一种优化技术是使用分块/平铺。

在其实现中,如果我们将子矩阵存储在共享本地内存中会更快,还是使用纹理缓存会更快?如果可能,请同时说明原因。

还请建议哪个更容易实现。

谢谢。

附:如果重要的话,我只希望它用于单精度!

注意:子矩阵的大小不是问题,但是我觉得它越大越好。唯一需要考虑的因素是如果内存单元是128位(4个单精度)那么块大小应该是4的倍数。

【问题讨论】:

    标签: opencl gpgpu matrix-multiplication ati


    【解决方案1】:

    Cypress 芯片用于 5800 系列 Radeon。 6900 系列使用 Cayman 内核,它有几个重要的区别,最值得注意的是它是 VLIW4 架构,而不是早期内核中使用的 VLIW5 配置。

    与往常一样,了解哪种方法更快的唯一确定方法是对其进行基准测试。特别是,由于您没有提供有关子矩阵大小的信息,因此很难说它们最适合哪里。

    【讨论】:

    • 哦!我的错。我通过编辑更正了它。是的,基准测试总是存在的,但我在这里发布了这个问题,以了解它的理论方面。
    猜你喜欢
    • 1970-01-01
    • 2010-11-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-09
    • 1970-01-01
    • 2011-02-25
    • 1970-01-01
    相关资源
    最近更新 更多