在支持 CUDA 的示例设备中，内存层次结构的测量延迟值是多少？答案

【问题标题】：What are the measured latency values of an memory hierarchy in a example CUDA capable device?在支持 CUDA 的示例设备中，内存层次结构的测量延迟值是多少？
【发布时间】：2012-01-17 01:28:27
【问题描述】：

尽管this 的问题与我的问题相似，但仍然没有针对不同类型发布任何延迟值。我很感激实际测量和对方法的解释以及他们的方法的推理。任何支持 CUDA 的独立 NVidia 卡都是理想的。

要测量的东西：

注册
共享内存
持续缓存命中
设备内存
全局内存

【问题讨论】：

This paper 几乎是 CUDA GPU 的黄金标准基准测试示例。
想让您的评论成为答案吗？这正是我想要的。

标签： cuda benchmarking latency

【解决方案1】：

This paper 几乎是 CUDA GPU 的黄金标准基准测试示例。它使用 Tesla C1060/GTX 285 "GT200" 级 GPU，通过非常彻底的微基准测试公开了您感兴趣的大部分信息。

【讨论】：