Ng coursera 和 Michael A. Nielsen 书中不同的梯度下降答案

【问题标题】：The Gradient descent different between in Ng coursera and Michael A. Nielsen bookNg coursera 和 Michael A. Nielsen 书中不同的梯度下降
【发布时间】：2017-11-28 12:14:30
【问题描述】：

我正在通过coursera 的 NG 机器学习课程和 Nielson 的《神经网络和深度学习》一书学习神经网络。我对梯度下降的理解有点困惑。我看到了两种不同的形式来通过 NG 和 Nielson 之间的梯度下降来更新权重。

来自尼尔森：

the weight update formula

the chapter Two, section The backpropagation algorithm

来自 NG：

the weight update formal

它们都用于在反向传播算法中转发传递后更新权重。在Neil版本中，NG版本中似乎有一个学习等级-η，它没有任何学习等级，更像是学习等级为+1。我对此很困惑。有没有人能帮我理解一下？

【问题讨论】：

可能更适合datascience.stackexchange.com 或stats.stackexchange.com。
您确定 NGs 公式涵盖了参数更新吗？它似乎只是处理反向传播
@Ben，谢谢提醒。你说的对。我错了。 NGs 公式只是对 deltas 求和，并将得到一个均值和正则化来获得梯度。不同的是 ngs 公式通过传递所有样本来计算梯度。尼尔森公式计算每个样本的梯度。 more tails about NG
啊，后者是一种不同的方法（随机梯度下降），对大型数据集很有用

标签： neural-network deep-learning backpropagation gradient-descent

【解决方案1】：

你展示的NG公式不包括参数更新，它只包括梯度的计算。

【讨论】：