LSTM算法

文章目录

1.LSTM

1.1 三个门
1.2 LSTM单元细节

2.LSTM变种

2.1 GRU
2.2 Bi-RNN (Bidirectional Recurrent Neural Network)

3.RNN使用场景

1.LSTM

1.1 三个门

forget gate 遗忘门决定了上一个时刻的单元状态 $c_{t-1}$ 有多少保留到当前状态 $c_t$
input gate 输入门决定当前时刻网格的输入 $x_t$ 有多少可以保存到单元状态 $\displaystyle c_t$
output gate 输出门控制单元状态 $c_t$ 有多少输出到 $LSTM$ 的当前输出值 $h_t$

1.2 LSTM单元细节

LSTM算法
符号介绍

$c_t$ 为时刻 $t$ 时的单元状态
forget gate

$f=\sigma(w_f[h_{t-1},x_t])$ t-1时刻 $\displaystyle c_{t-1}$ 在t时刻保留 $f*c_{t-1}$
input gate

$i=\sigma(w_i[h_{t-1},x_t])$

$z=\tanh(w_z[h_{t-1},x_t])$

$t-1$ 时刻在 $t$ 时刻输入 $x_t$ 保留 $i*z$
output gate

$c_t=f*c_{t-1}+i*z$

$o=\sigma(w_o[h_{t-1},x_t])$

输出为 $h(t)=\tanh(c_t) * o$

2.LSTM变种

2.1 GRU

LSTM算法

GRU对LSTM做了两个比较大的改动
- update gate 更新门 $\displaystyle z_t$
- reset gate 重置门 $\displaystyle r_t$
- 将单元状态合并为一个状态 $\displaystyle h_t$
GRU的前向计算公式为

$z_t=\sigma(W_z[h_{t-1},x_t])$

$r_t=\sigma(W_r[h_{t-1},x_t])$

$\widetilde h_t=\tanh(W[r_t*h_{t-1},x_t])$

$h=(1-z_t)h_{t-1}+z_t*\tilde h_t$

2.2 Bi-RNN (Bidirectional Recurrent Neural Network)

LSTM算法

RNN无法利用未来信息，Bi-RNN可以同时输入历史和未来的数据信息，时序相反时两个循环神经网络连接统一输出，输出层可以同时获取历史未来信息。
双向循环神经网络的基本思想是: 每一个训练序列向前和向后分别是两个RNN，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息。6个独特的权值在每一时步被重复利用，六个权值分别对应着输入层到前向层隐含层和反向层隐藏层 $(w_1,w_5)$ 、前向/后向隐含层到前向/后向隐含层 $(w_2,w_5)$ 、向前和向后隐含层到输出层 $(w_4,w_6)$

3.RNN使用场景

LSTM算法
RNN网络适合处理序列数据¹，序列长度一般不是固定的。

上图最下层为输入向量，中间层为RNN的状态，最上层为输出向量

RNN的五个应用场景，一次对应上面的5个图

没有使用RNN的Vanilla模型，从固定的大小的输入得到固定大小的输出
序列输出(比如图片字幕，输入一张图片输出一段文字序列)
序列输入(比如情感分析，输入一段文字，然后将它分类为积极或者消极情感)
序列输入和序列输出(比如机器翻译:一个RNN读取一条英文语句，然后将它以法语形式输出)
同步序列输入输出(比如视频分类，为视频中每一帧打标签)

与使用固定计算步骤的固定网络相比，使用序列进行操作要更加强大。RNN将输入向量与状态向量用一个固定函数绑定起来，用来产生一个新的状态向量。在编程层面上，在运行一个程序时可以用特定的输入和一些内部变量对其进行解释。从这个角度上讲，RNN本质上可以描述程序。事实上，RNN是图灵完备的，即他们可以模拟任意程序。 ↩︎

相关文章：

2021-08-04
2021-05-28
2021-07-25
2021-11-17
2022-01-01
2021-09-10
2021-12-16
2021-09-24

猜你喜欢

2021-09-15
2022-12-23
2022-01-19
2021-08-06
2021-08-31
2021-08-20
2022-12-23

相关资源

下载 2021-07-14
下载 2023-01-28
下载 2023-04-07
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode