对于SimpleRNN来说,要更新当前状态h_1 : 将“输入”和“上一个时刻状态”拼接 乘以A,加上b,乘以双曲正切函数 对于有注意力机制的RNN来说: 将“输入”和“c_0”拼接 (剩下都一样) (也可以将三个拼接) 每一个c的算法: 注意力权重和状态 做向量内积 总结: attention是用在seq2seq模型中的,是encoder做出用于decoder。 而self-attention是用在RNN中,甚至其它各种网络。 相关文章: