RNN 中的梯度计算：随时间的反向传播（多对一关系）答案

【问题标题】：Gradient calculation in RNN: Backpropagation through time (many to one - relationship)RNN 中的梯度计算：随时间的反向传播（多对一关系）
【发布时间】：2020-12-30 21:39:32
【问题描述】：

这不是直接与编程相关的问题，但老实说，我不知道在哪里可以问（如果你知道更适合这个问题的论坛，请告诉我，我会在那里问）。

我正在尝试更深入地了解反向传播 (BPTT) 的工作原理，我遇到了this great article，下面是这张图片：

我仍然难以理解（例如）我是如何获得ds_1 / ds_0 的？我知道它应该根据之前的梯度计算，但它究竟是如何定义的？

我尝试用我自己的例子重建上面的图像，并观看了一些教程来填写上面图像的更详细版本：

我认为红色的前 3 个方程是正确的，但我不太确定它是如何进行的。

谁能告诉我 h_t-1 的 2 个暗方程是否正确？

这与上述版本有何联系？
是ds_3 / ds_2 = dL / dθ_h吗？

非常感谢任何帮助：D

干杯，斯文

【问题讨论】：

标签： deep-learning gradient recurrent-neural-network gradient-descent backpropagation

【解决方案1】：

我认为您需要了解什么是计算图以及如何通过微积分的链式法则计算反向传播。之后，您可以将这个想法当作一个黑匣子来处理，因为现代深度学习框架会为您完成繁琐的工作，让您专注于全局。

我相信这两个视频将帮助您了解计算图及其数学的概念。

What is Backpropagation Really Doing?

Backpropagation Calculus

【讨论】：