在 NVIDIA GPU 分析中，什么是子分区、扇区和单元？答案

【问题标题】：In NVIDIA GPU profiling, what are sub-partitions, sectors and units?在 NVIDIA GPU 分析中，什么是子分区、扇区和单元？
【发布时间】：2014-02-03 08:23:51
【问题描述】：

与内存事务的 NVIDIA GPU 性能计数器相关的子分区、扇区和 DRAM 单元是什么？

我正在寻找有关如何解释以下性能计数器的信息：

fb_subp0_read_sectors : 发送到子分区的读取请求数所有 DRAM 单元中的 0 个 fb_subp1_read_sectors ：读取次数发送到所有 DRAM 单元的子分区 1 的请求 fb_subp0_write_sectors ：发送到的写请求数所有 DRAM 单元的子分区 0 fb_subp1_write_sectors : Number 发送到所有 DRAM 单元的子分区 1 的读取请求数 fb0_subp0_read_sectors ：发送到的读取请求数 DRAM 单元 0 的子分区 0 fb0_subp1_read_sectors ：数量发送到 DRAM 单元 0 的子分区 1 的读取请求 fb0_subp0_write_sectors ：发送到的写请求数 DRAM 单元 0 的子分区 0 fb0_subp1_write_sectors ：数量写请求发送到 DRAM 单元 0 的子分区 1 fb1_subp0_read_sectors ：发送到的读取请求数 DRAM 单元 1 的子分区 0 fb1_subp1_read_sectors ：数量发送到 DRAM 单元 1 的子分区 1 的读取请求 fb1_subp0_write_sectors ：发送到的写请求数 DRAM 单元 1 fb1_subp1_write_sectors 的子分区 0：编号发送到 DRAM 单元 1 的子分区 1 的写入请求数

我查看了 NVIDIA Visual Profiler 5.0 的文档，但没有找到任何其他信息。

【问题讨论】：

我还没有找到关于你提到的性能计数器的任何具体信息。我认为他们提到的问题是Optimizing Matrix Transpose in CUDA 和论文中讨论的分区露营问题：Bounding the Effect of Partition Camping in GPU Kernels，但我相信你已经知道了。

标签： cuda profiling gpu nvidia

【解决方案1】：

对于大多数 gpus，您会看到以下四个计数器： fb_subp0_read_sectors : 发送到所有 DRAM 单元的子分区 0 的读取请求数 fb_subp1_read_sectors ：发送到所有 DRAM 单元的子分区 1 的读取请求数 fb_subp0_write_sectors ：发送到所有 DRAM 单元的子分区 0 的写请求数 fb_subp1_write_sectors : 发送到所有 DRAM 单元的子分区 1 的读取请求数

DRAM 分为多个单元（分区），每个单元最多分为 2 个子分区。当您分析 fb_subp0_read_sectors 或 fb_subp0_write_sectors 计数器时，您将从所有单元中获得子分区 0 的聚合值。同样，当您分析 fb_subp1_read_sectors 或 fb_subp1_write_sectors 时，您将从所有 DRAM 单元中获得子分区 1 的聚合值。扇区是访问DRAM内存的单位，32字节。

其他计数器仅对 fermi 系列中的某些 gpu 有效（GeForce GT 440/430/420 和 GeForce GT 520/530、GeForce GT 610）。由于某些硬件限制，它们被引入。

【讨论】：