第三章
上一章我们讨论了不同内存布局对核函数性能的影响,这一章我们就从硬件的角度,去探究为什么布局会导致核函数运行的不同。
SM简介
上一节我们说到deviceProp的时候,不知道会不会有读者有疑惑,为什么突然会提到multiprocessor(多处理器)这个概念,这个概念又是什么?其实这个multiprocessor,就是我们这一篇推文要介绍的SM。
先来给大家看看SM的结构:
这是Fermi架构下的SM结构,主要有CUDA核心、共享内存/L1缓存,寄存器文件,加载/储存单元和线程束调度器。在后面我会给大家讲解一下,这些东西到底是什么。现在,我们先假设SM是一个黑匣子。我们来探究一下并行处理在SM上运行的特质。
我们再来回顾一下,CUDA是怎么分割全局内存的。网格->块->线程。而其中,线程块实际上是在SM上面执行的。每个线程块都只会被调度到任意一个SM上,并且就在这个SM上并发运行。但是一个SM不止接收一个线程块,它会有多个线程块进行调度。这个调度是根据SM资源的可用性决定的。
抽象,真的抽象。
我们再讲细一点。CUDA和普通的SIMD架构不同的是,CUDA是采用SIMT架构来管理和执行线程的。SIMT架构,也就是单指令多线程架构。在CUDA中,线程的一个小集合叫做线程束(warp)。warp是以32个线程组成的一个小的关于线程的基本单元,每个SM都会将线程块划分成多个包含32个线程的线程束,然后根据SM自身的可用资源调度执行。
也就是说,在一个SM上有多个线程块,而每个线程块会被划成n个线程束,SM以线程束为基本单位进行并行处理。
从软件层面到硬件层面的映射:
SIMT模型与SIMD模型的区别
SIMD模型要求同一个向量中的所有元素要在统一的同步组中一起执行,而SIMT则允许属于同一个线程束的多个线程独立执行,这几个线程可以有不同的行为。因此SIMT允许线程级并发,也就是在统一线程束下的线程可以同时做不同的事情。
SIMT有SIMD所不具备的三个特征:
1.每个线程都有自己的指令地址计数器
2.每个线程都有自己的寄存器状态
3.每个线程可以有一个独立的执行路径
这几点在CUDA中的重要性会在后面的章节体现。