【发布时间】:2020-12-30 21:39:32
【问题描述】:
这不是直接与编程相关的问题,但老实说,我不知道在哪里可以问(如果你知道更适合这个问题的论坛,请告诉我,我会在那里问)。
我正在尝试更深入地了解反向传播 (BPTT) 的工作原理,我遇到了this great article,下面是这张图片:
我仍然难以理解(例如)我是如何获得ds_1 / ds_0 的?我知道它应该根据之前的梯度计算,但它究竟是如何定义的?
我尝试用我自己的例子重建上面的图像,并观看了一些教程来填写上面图像的更详细版本:
我认为红色的前 3 个方程是正确的,但我不太确定它是如何进行的。
谁能告诉我 h_t-1 的 2 个暗方程是否正确?
这与上述版本有何联系?
是ds_3 / ds_2 = dL / dθ_h吗?
非常感谢任何帮助:D
干杯, 斯文
【问题讨论】:
标签: deep-learning gradient recurrent-neural-network gradient-descent backpropagation