GRU(Gated recurrent unit)
GRU是LSTM的简化版本,是LSTM的变体,它去除掉了细胞状态,使用隐藏状态来进行信息的传递。它只包含两个门:更新门和重置门
结构说明
GRU计算公式:
结合计算公式和上图,公式(1)2)分别是更新门个重置门,更新门的作用类似于 LSTM 中的遗忘门和输入门,它决定了要忘记哪些信息以及哪些新信息需要被添加,体现在公式(4)中。重置门用于决定遗忘先前信息(上一时刻的隐藏状态)中的那些对当前时刻计算不重要的部分,用于计算当前的候选隐藏状态。
GRU 的运算量较少,故它比 LSTM 的运算会更快一些。不过在具体任务中,很难去判定这两者到底谁更好,一般是两者都试一下,然后选择最合适的。
GUR与LSTM的异同
- GRU门控数量减少了,用更新门替代了原来的遗忘门和输入门。
- LSTM通过记忆细胞进行信息流传,而GRU则通过隐藏状态进行信息传递。
- GRU计算更快
- 两者最大的相似之处就是, 在从到 的更新时都引入了加法,可以防止梯度消失。
HAN论文里有对GRU的很好的解释