1 前言
Transformer是一个很厉害的模型呀~
2 Self-Attention
Note:这里的
W
q
W^q
Wq、
W
k
W^k
Wk和
W
v
W^v
Wv的权值是不共享的,也就是独立的;
我感觉原因可能是因为,不同时刻的序列
a
i
a^i
ai的特征可能不太一样,所以这里没有用相同的kernel来提取特征;
(CNN中,所有loc的region都是使用的相同的卷积kernel,这样的特点给CNN带来了平移不变性的优点;
于是特征的数量主要由channel的维度来确定,也就是,channel数决定了特征的丰富程度)