【问题标题】:In NVIDIA GPU profiling, what are sub-partitions, sectors and units?在 NVIDIA GPU 分析中,什么是子分区、扇区和单元?
【发布时间】:2014-02-03 08:23:51
【问题描述】:

与内存事务的 NVIDIA GPU 性能计数器相关的子分区、扇区和 DRAM 单元是什么?

我正在寻找有关如何解释以下性能计数器的信息:

fb_subp0_read_sectors : 发送到子分区的读取请求数 所有 DRAM 单元中的 0 个 fb_subp1_read_sectors :读取次数 发送到所有 DRAM 单元的子分区 1 的请求 fb_subp0_write_sectors :发送到的写请求数 所有 DRAM 单元的子分区 0 fb_subp1_write_sectors : Number 发送到所有 DRAM 单元的子分区 1 的读取请求数 fb0_subp0_read_sectors :发送到的读取请求数 DRAM 单元 0 的子分区 0 fb0_subp1_read_sectors :数量 发送到 DRAM 单元 0 的子分区 1 的读取请求 fb0_subp0_write_sectors :发送到的写请求数 DRAM 单元 0 的子分区 0 fb0_subp1_write_sectors :数量 写请求发送到 DRAM 单元 0 的子分区 1 fb1_subp0_read_sectors :发送到的读取请求数 DRAM 单元 1 的子分区 0 fb1_subp1_read_sectors :数量 发送到 DRAM 单元 1 的子分区 1 的读取请求 fb1_subp0_write_sectors :发送到的写请求数 DRAM 单元 1 fb1_subp1_write_sectors 的子分区 0:编号 发送到 DRAM 单元 1 的子分区 1 的写入请求数

我查看了 NVIDIA Visual Profiler 5.0 的文档,但没有找到任何其他信息。

【问题讨论】:

  • 我还没有找到关于你提到的性能计数器的任何具体信息。我认为他们提到的问题是Optimizing Matrix Transpose in CUDA 和论文中讨论的分区露营问题:Bounding the Effect of Partition Camping in GPU Kernels,但我相信你已经知道了。

标签: cuda profiling gpu nvidia


【解决方案1】:

对于大多数 gpus,您会看到以下四个计数器: fb_subp0_read_sectors : 发送到所有 DRAM 单元的子分区 0 的读取请求数 fb_subp1_read_sectors :发送到所有 DRAM 单元的子分区 1 的读取请求数 fb_subp0_write_sectors :发送到所有 DRAM 单元的子分区 0 的写请求数 fb_subp1_write_sectors : 发送到所有 DRAM 单元的子分区 1 的读取请求数

DRAM 分为多个单元(分区),每个单元最多分为 2 个子分区。当您分析 fb_subp0_read_sectors 或 fb_subp0_write_sectors 计数器时,您将从所有单元中获得子分区 0 的聚合值。同样,当您分析 fb_subp1_read_sectors 或 fb_subp1_write_sectors 时,您将从所有 DRAM 单元中获得子分区 1 的聚合值。 扇区是访问DRAM内存的单位,32字节。

其他计数器仅对 fermi 系列中的某些 gpu 有效(GeForce GT 440/430/420 和 GeForce GT 520/530、GeForce GT 610)。由于某些硬件限制,它们被引入。

【讨论】:

    猜你喜欢
    • 2014-08-06
    • 1970-01-01
    • 1970-01-01
    • 2011-12-05
    • 1970-01-01
    • 2013-12-28
    • 2016-03-31
    • 2020-10-28
    • 2014-03-27
    相关资源
    最近更新 更多