transformer 原理及源码

左边encoder ,右边是decoder

transformer 原理及源码transformer 原理及源码

图中是4维 ,论文中是512,x 乘 WQ,WK,WV(随机初始化)得到 q ,k,v。

为何要乘 WQ,WK,WV 而不直接使用qkv

首先增加参数可以增加学习能力,如果没经过 WQ,WK,WV,则qkv一般就固定的值,后面q 乘 k的时候,两个相似度大的向量会得到很大的值

transformer 原理及源码

transformer 原理及源码transformer 原理及源码

Multi-headed

transformer 原理及源码

transformer 原理及源码

相关文章: