lstm和GRU结构图

1.lstm的结构图

lstm和GRU结构图
LSTM主要由记忆单元C，遗忘门，输入门和输出门组成，门的取值范围都是(0,1)，由sigmoid函数控制

遗忘门f

遗忘门以前一个时刻的隐层状态ht−1和该时刻输入xt的线性组合作为sigmoid函数的输入，用来控制遗忘多少*前一时刻记忆单元Ct-1的内容。
那么经过遗忘门之后：Ct-1中的内容还剩多少呢：• 表示元素级的乘法
输入门 i

输入们也是以前一个时刻的隐层状态ht−1和该时刻输入xt的线性组合作为sigmoid函数的输入，用来控制输入多少当前输入进来的新信息
输入们：
那么经过输入门的控制，究竟有多少新信息是被保留的呢？我们用C_t~来表示：
输出门

输出们也是以前一个时刻的隐层状态ht−1和该时刻输入xt的线性组合作为sigmoid函数的输入，用来控制输出多少 当前记忆单元Ct 的信息
输出门：
那么当前记忆单元Ct的内容是什么呢？？，观察下图：

Ct 是由 Ct-1 经历乘法和加法得到的，再来看乘法和加法到底是什么？

由图中可以看到：
乘法：由遗忘门控制的
加法：由输入门控制的
将两者想加就是当前的Ct
最终的输出ht

对照这张图，整个过程整理一下

lstm和GRU结构图

2.GRU结构图

GRU是LSTM网络的一种效果很好的变体，它较LSTM网络的结构更加简单，而且效果也很好，因此也是当前非常流形的一种网络。GRU既然是LSTM的变体，因此也是可以解决RNN网络中的长依赖问题。
lstm和GRU结构图
GRU模型中只有两个门：分别是重置门和更新门

重置门所做的工作跟Lstm 的遗忘门类似，只不过它不是遗忘前一时刻记忆单元Ct-1的信息，而是前一时刻隐层单元的信息 ht-1
重置门：
遗忘之后，ht-1 还剩多少信息？？
更新门作用与LSTM 不一样，它是控制前一时刻隐层状态 ht-1,和当前输入信息的平衡
更新门：
输入信息：注意这里输入的不是ht-1, 而是遗忘之后的 rt • ht-1
平衡之后的ht：

lstm和GRU结构图

对照这张图，整理下整个过程

lstm和GRU结构图

最后：[ ]表示cancat，• 表示元素级的乘法

相关文章：

2021-10-17
2021-04-04
2021-06-10
2021-05-05
2021-05-21
2021-05-06

猜你喜欢

2022-01-19
2021-12-21

相关资源

下载 2021-07-01
下载 2023-03-14
下载 2021-06-27
下载 2023-01-20

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode