Synthesizer: Rethinking Self-Attention in Transformer Models
这篇论文通过替换attention矩阵,发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。
SYNTHESIZER model
Dense SynSynthesizer:
将attention矩阵替换成经由两层前馈层的网络训练得到的矩阵。直观上看,就是将每个token(长度:)映射成一个长度为的向量,这样就避免了参数矩阵学习到self-alginment。还是同Transformer中一致,通过与矩阵相乘获得。
公式表达如下:
其中
可以将看成一个权重矩阵,而就是矩阵。
Random Synthesizer
将attention矩阵替换成一个的随机矩阵,
由于采用了随机生成的矩阵,所以并不依赖于任何的输入,所以相比于attention矩阵和Dense SynSynthesizer来说,Random Synthesizer可以学习到全局的信息。
当然,还可以通过对“权重矩阵”进行矩阵分解来减少参数量。
Distribution of Weights
图中横坐标为weigth值的大小(0.000,0.016,0.002),紫色部分为Transformer的权重数值大小分布,大部分的权重值都分布在0.00-0.002之间,数值的方差很小。而 SynSynthesizer 的权重数值大小分布较为分散