Synthesizer: Rethinking Self-Attention in Transformer Models

这篇论文通过替换 $Q \times K^{T}$ attention矩阵，发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。

SYNTHESIZER model

Dense SynSynthesizer：

将 $Q \times K^{T}$ attention矩阵替换成经由两层前馈层的网络训练得到的矩阵。直观上看，就是将每个token(长度： $d$ )映射成一个长度为 $l$ 的向量，这样就避免了参数矩阵学习到self-alginment。 $V$ 还是同Transformer中一致，通过与矩阵 $W_{K}$ 相乘获得。
公式表达如下：
$Y = Softmax(F(X))G(X)$
其中
$F(X) = W(\sigma(W(X)+b))+b$
可以将 $Softmax(F(X))$ 看成一个权重矩阵，而 $G(X)$ 就是 $V$ 矩阵。

Random Synthesizer

将 $Q \times K^{T}$ attention矩阵替换成一个 $l \times l$ 的随机矩阵 $R$ ，
$Y = Softmax(R)G(X)$
由于采用了随机生成的矩阵 $R$ ，所以 $R$ 并不依赖于任何的输入，所以相比于 $Q \times K^{T}$ attention矩阵和Dense SynSynthesizer来说，Random Synthesizer可以学习到全局的信息。

当然，还可以通过对“权重矩阵”进行矩阵分解来减少参数量。
Synthesizer: Rethinking Self-Attention in Transformer Models

Distribution of Weights

Synthesizer: Rethinking Self-Attention in Transformer Models
图中横坐标为weigth值的大小（0.000，0.016，0.002），紫色部分为Transformer的权重数值大小分布，大部分的权重值都分布在0.00-0.002之间，数值的方差很小。而 SynSynthesizer 的权重数值大小分布较为分散