self attention 是利用了图像空间上的信息,比如分割等场景,仅仅依靠一个卷积无法建立起空间上像素之间的联系,但是诸如Dense-CRF就可以将每一个像素建立起联系,self-attention也是如此。
self-attention的结构很简单。如下图
我使用pad对其进行刻画。self-attention最重要的部分就是上图左下角部分——制造一个只与空间位置相关的特征矩阵(上图都是矩阵相乘)
为了深入理解上图,我们需要知道最后THW X THW的权重矩阵有什么物理意义。
我们可以通过 相关矩阵的理解方式去理解。