10.1 RNN,LSTM,.GRU递归神经网络学习笔记

文章目录

概念

RNN是用于处理大小可变的有序数据的一类模型
10.1 RNN,LSTM,.GRU递归神经网络学习笔记

即使对固定输入输出的模型，RNN也非常有用
我们想对输入序列化处理，这里我们收到一个固定大小的输入，如一个图形，我们要做出分类决策，即图像中的数字分类，我们不是做单一的前向传播，而是观察图片的各种不同部分，然后在完成一组观察后做出最终决策。
10.1 RNN,LSTM,.GRU递归神经网络学习笔记

概念

总体而言每个RNN都有这样一个小小的循环核心单元，它把x作为输出传入RNN，RNN有一个内部隐藏态（internal hidden state），内部隐藏态会在RNN每次读取新的输入时更新，然后这一内部隐藏态会把结果反馈至模型，当模型下次读取时，通常我们想让RNN，在每一时步都能给出输出，因此就有了这样的模式，它读取输入更新隐藏态，并且生成输出。
10.1 RNN,LSTM,.GRU递归神经网络学习笔记

然后问题是，这一循环过程中的计算公式

下图基本是最简单的RNN了就是vanilla
在这里就是读取前一个的隐藏态，和当下输入值xt，生成下一个隐藏态，然后和你想象的一样简单，我们在用权重矩阵Wxh将其与输入xt相乘，另一个权重矩阵Whh与前一个隐藏态ht-1相乘，将他们相乘在相加后用tanh后压缩到-1到1之间，这样系统就引入了一些非线性元素

10.1 RNN,LSTM,.GRU递归神经网络学习笔记
当想到RNN，你可以从两方面思考，第一它有一种隐藏态，可以循环反馈给自我，但我觉得这张图有些让人疑惑，有时我想将这张计算图展开更多的时步会更清晰，这样隐藏态里的数据传输流即输入输出权重的走向就会变得更清晰了。在初始我们有隐藏状态h0，通常情况下h0=0，我们有输入项Xt，初始隐层状态h0和现在的输入项Xt，将会带入fw函数中，计算得出下一个隐藏状态层h1，我们会重复这个过程
10.1 RNN,LSTM,.GRU递归神经网络学习笔记
将这个图更清晰些，即将权重矩阵卸载我们的计算流程图上，这时可以发现，每个计算步长中，重复使用者相同的权重矩阵，所以我们的fw在每次接受不同的h和不同的x，但这些块都在使用相同的w权重，如果把反向传播的思想带入，通过矩阵的梯度和损失函数来优化权重矩阵。
10.1 RNN,LSTM,.GRU递归神经网络学习笔记
在这张计算流程图上，额米格计算步长下的输出ht，重新作为输入给之后的神经网络，重新输出该时步下的yt，你可以想象在每一个时间步长下，都有一个与输入序列对应的真实标签，这样计算出每个时间步长下，与输出对应的损失值，这里的损失通常是softmax损失之类，计算这样的损失需要序列在每个时步下的真实标签，最终损失值是这个训练过程中，这些单独损失值的总和，这样我们得到了每个时间步长下的损失值，将它们加起来就得到了画面上方的最终损失值，所以RNN为了训练这个模型，我们需要计算损失函数在w上的梯度，最终损失函数又会回溯到每一个时步的损失，然后每一个时步会各自计算出权重w上的梯度
10.1 RNN,LSTM,.GRU递归神经网络学习笔记
假如是多对一的情况，比如做诸如情感分析之类的工作，我们通常会根据隐层状态做出决策，因为隐层最后状态整合了序列中包含的所有情况。

若是一对多问题，会有固定的输入和不定的输出项，之后这个固定的输入项会被初始化为这个模型的初始隐层状态，接着递归神经网络会对输出的单元逐个进行处理，最终会得到不定长的输出序列，输出的每个元素都得以展现。
10.1 RNN,LSTM,.GRU递归神经网络学习笔记
多对多的情况可以把它类比一对多和多对一的组合，这样就存在两个过程分别编码器和解码器，在编码器过程中，我们将会接受一个不定长度的输入序列，可能是一个英语句子，然后整个句子会被编码器网络最终的隐藏状态所编码，下图右这是多对一的过程，我们已经把不定长的输入编码成了一个单独的向量，第二部分是解码器这是一对多的情形，它的输入就是前面编码完成的向量，生成一个不定长的输出序列，可能用另一种语言表述出相同意思的句子
10.1 RNN,LSTM,.GRU递归神经网络学习笔记