图解Attention

关于Attention的公式推导，我在这篇文章讲过了，本篇文章主要以图示的方式进行讲解

下图是一个Encoder架构， $s_0$ 从值上来说与 $h_m$ 是相等的，只不过这里换了个名字

首先我们需要将 $s_0$ 和所有的 $h_i\ (i=1,...,m)$ 计算一个"相关性"，比方说计算 $s_0$ 和 $h_1$ 之间的相关性计算得 $\alpha_1=align(h_1, s_0)$

图解Attention

计算得到m个相关性 $\alpha_i$ 之后，将这些值与 $h_i$ 进行加权平均，即
$c_0=\sum_{i=1}^m \alpha_i h_i=\alpha_1h_1+···\alpha_mh_m$
我们可以直观的感受一下这样做有什么作用，对于那些值比较大的 $\alpha_k$ ，最终 $c_0$ 中也会有一大部分来自于 $h_k$ 。 $c_0$ 实际上考虑到了所有时刻的 $h$ ，只不过对于某些时刻可能关注的更多，而某些时刻关注的更少，这就是注意力机制

图解Attention

之后将 $s_0,c_0,x'_1$ 作为 $t=0$ 时刻Decoder 的输入，计算得到 $s_1$ ，然后再计算 $s_1$ 与所有 $h_i\ (i=1,...,m)$ 之间新的相关性 $\alpha_i$

图解Attention

同样的，将新计算得到的 $\alpha_i$ 与 $h_i$ 做加权平均，得到新的context vector $c_1$

图解Attention

重复上述步骤，直到Decoder结束

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kXBKjnuD-1593652073210)(https://i.loli.net/2020/07/01/yqm7WM4tKQpVc6B.png#shadow)]

到这里实际上整个Seq2Seq(with Attention)就讲完了，但是其中还有一些细节，比方说，align()函数怎么设计？ $c_i$ 如何应用到Decoder中？下面一一解释

`align()`函数如何设计？

有两种方法，在最初的论文，即Bahdanau的论文中，他的设计方式如下图所示

图解Attention

现在比较主流的，同时也是Transformer结构使用的方法如下所示

图解Attention

$c_i$ 如何应用到Decoder中？

废话不多说，直接见下图

图解Attention

相关文章：

2021-09-11
2021-10-13
2021-10-18
2021-04-08
2021-04-21
2021-07-10
2022-12-23

猜你喜欢

2021-05-21
2021-10-24
2021-06-02
2022-01-04
2021-10-27
2022-12-23
2021-09-19

相关资源

下载 2022-12-21
下载 2023-01-06
下载 2021-06-22

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode