non-local attention/ self attention 图像应用的自我理解

self attention 是利用了图像空间上的信息，比如分割等场景，仅仅依靠一个卷积无法建立起空间上像素之间的联系，但是诸如Dense-CRF就可以将每一个像素建立起联系，self-attention也是如此。

self-attention的结构很简单。如下图
non-local attention/ self attention 图像应用的自我理解
我使用pad对其进行刻画。self-attention最重要的部分就是上图左下角部分——制造一个只与空间位置相关的特征矩阵（上图都是矩阵相乘）

为了深入理解上图，我们需要知道最后THW X THW的权重矩阵有什么物理意义。
non-local attention/ self attention 图像应用的自我理解
我们可以通过相关矩阵的理解方式去理解。