Synthesizer: Rethinking Self-Attention in Transformer Models

这篇论文通过替换Q×KTQ \times K^{T}attention矩阵,发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer ModelRandom Synthesizer Model对Transformer进行比较研究。

SYNTHESIZER model

Synthesizer: Rethinking Self-Attention in Transformer Models

Dense SynSynthesizer

Q×KTQ \times K^{T}attention矩阵替换成经由两层前馈层的网络训练得到的矩阵。直观上看,就是将每个token(长度:dd)映射成一个长度为ll的向量,这样就避免了参数矩阵学习到self-alginment。VV还是同Transformer中一致,通过与矩阵WKW_{K}相乘获得。
公式表达如下:
Y=Softmax(F(X))G(X)Y = Softmax(F(X))G(X)
其中
F(X)=W(σ(W(X)+b))+bF(X) = W(\sigma(W(X)+b))+b
可以将Softmax(F(X))Softmax(F(X))看成一个权重矩阵,而G(X)G(X)就是VV矩阵。

Random Synthesizer

Q×KTQ \times K^{T}attention矩阵替换成一个l×ll \times l的随机矩阵RR
Y=Softmax(R)G(X)Y = Softmax(R)G(X)
由于采用了随机生成的矩阵RR,所以RR并不依赖于任何的输入,所以相比于Q×KTQ \times K^{T}attention矩阵和Dense SynSynthesizer来说,Random Synthesizer可以学习到全局的信息。

当然,还可以通过对“权重矩阵”进行矩阵分解来减少参数量。
Synthesizer: Rethinking Self-Attention in Transformer Models

Distribution of Weights

Synthesizer: Rethinking Self-Attention in Transformer Models
图中横坐标为weigth值的大小(0.000,0.016,0.002),紫色部分为Transformer的权重数值大小分布,大部分的权重值都分布在0.00-0.002之间,数值的方差很小。而 SynSynthesizer 的权重数值大小分布较为分散


论文链接:http://arxiv.org/pdf/2005.00743.pdf

相关文章:

  • 2021-05-24
  • 2021-12-01
  • 2022-12-23
  • 2022-01-13
  • 2021-12-03
  • 2021-04-26
  • 2021-09-05
  • 2021-10-11
猜你喜欢
  • 2021-11-29
  • 2022-02-21
  • 2021-06-10
  • 2021-04-15
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案