CUDA学习——Chapter 3（1）流式多处理器（SM）介绍

第三章

上一章我们讨论了不同内存布局对核函数性能的影响，这一章我们就从硬件的角度，去探究为什么布局会导致核函数运行的不同。

SM简介

上一节我们说到deviceProp的时候，不知道会不会有读者有疑惑，为什么突然会提到multiprocessor（多处理器）这个概念，这个概念又是什么？其实这个multiprocessor，就是我们这一篇推文要介绍的SM。
先来给大家看看SM的结构：
CUDA学习——Chapter 3（1）流式多处理器（SM）介绍
这是Fermi架构下的SM结构，主要有CUDA核心、共享内存/L1缓存，寄存器文件，加载/储存单元和线程束调度器。在后面我会给大家讲解一下，这些东西到底是什么。现在，我们先假设SM是一个黑匣子。我们来探究一下并行处理在SM上运行的特质。

我们再来回顾一下，CUDA是怎么分割全局内存的。网格->块->线程。而其中，线程块实际上是在SM上面执行的。每个线程块都只会被调度到任意一个SM上，并且就在这个SM上并发运行。但是一个SM不止接收一个线程块，它会有多个线程块进行调度。这个调度是根据SM资源的可用性决定的。

抽象，真的抽象。

我们再讲细一点。CUDA和普通的SIMD架构不同的是，CUDA是采用SIMT架构来管理和执行线程的。SIMT架构，也就是单指令多线程架构。在CUDA中，线程的一个小集合叫做线程束（warp）。warp是以32个线程组成的一个小的关于线程的基本单元，每个SM都会将线程块划分成多个包含32个线程的线程束，然后根据SM自身的可用资源调度执行。

也就是说，在一个SM上有多个线程块，而每个线程块会被划成n个线程束，SM以线程束为基本单位进行并行处理。

从软件层面到硬件层面的映射：

CUDA学习——Chapter 3（1）流式多处理器（SM）介绍

SIMT模型与SIMD模型的区别

SIMD模型要求同一个向量中的所有元素要在统一的同步组中一起执行，而SIMT则允许属于同一个线程束的多个线程独立执行，这几个线程可以有不同的行为。因此SIMT允许线程级并发，也就是在统一线程束下的线程可以同时做不同的事情。

SIMT有SIMD所不具备的三个特征：
1.每个线程都有自己的指令地址计数器
2.每个线程都有自己的寄存器状态
3.每个线程可以有一个独立的执行路径

这几点在CUDA中的重要性会在后面的章节体现。