【发布时间】:2011-07-17 16:57:27
【问题描述】:
所有, 来自“NVIDIA CUDA 编程指南 2.0”第 5.1.2.1 节: “在具有 1.2 及更高计算能力的设备上进行合并”
"查找包含编号最小的活动线程请求的地址的内存段。段大小为 8 位数据为 32 字节,16 位数据为 64 字节,32-、64- 和 128- 为 128 字节位数据。”
我有一个疑问:由于每个半经线有 16 个线程,如果所有线程都访问 8 位数据,那么每个半经线的总大小应该是 16 * 8 位 = 128 位 = 16 字节。而“指南”说“32 字节用于 8 位数据”。似乎浪费了一半的带宽。我理解正确吗?
谢谢 德里克
【问题讨论】:
标签: memory cuda bandwidth coalescing