左边encoder ,右边是decoder
图中是4维 ,论文中是512,x 乘 WQ,WK,WV(随机初始化)得到 q ,k,v。
为何要乘 WQ,WK,WV 而不直接使用qkv
首先增加参数可以增加学习能力,如果没经过 WQ,WK,WV,则qkv一般就固定的值,后面q 乘 k的时候,两个相似度大的向量会得到很大的值
左边encoder ,右边是decoder
图中是4维 ,论文中是512,x 乘 WQ,WK,WV(随机初始化)得到 q ,k,v。
为何要乘 WQ,WK,WV 而不直接使用qkv
首先增加参数可以增加学习能力,如果没经过 WQ,WK,WV,则qkv一般就固定的值,后面q 乘 k的时候,两个相似度大的向量会得到很大的值
相关文章: