激活函数的导数和在反向传播中的使用[关闭]答案

【问题标题】：Derivative of activation function and use in backpropagation [closed]激活函数的导数和在反向传播中的使用[关闭]
【发布时间】：2012-04-04 20:35:53
【问题描述】：

我正在阅读this文档，他们说权重调整公式是这样的：

新权重 = 旧权重 + 学习率 * delta * df(e)/de * 输入

df(e)/de部分是激活函数的导数，通常是像tanh这样的sigmoid函数。

【问题讨论】：

我认为这里离题了。属于人工智能.stackoverflow.com，遗憾的是，它还不存在。
是的，我在这里看到很多 AI 问题，我不明白为什么 ai.stackexchange.com 已关闭 (blog.stackoverflow.com/2010/12/…)。
更好地回答here in artificial intelligence

【解决方案1】：

训练神经网络只是指为权重矩阵中的每个单元找到值（对于具有一个隐藏层的NN，有两个），使得观测数据和预测数据之间的平方差被最小化。在实践中，包含两个权重矩阵的各个权重会随着每次迭代而调整（它们的初始值通常设置为随机值）。这也称为在线模型，而不是在大量迭代后调整权重的批次模型。

但是应该如何调整权重——即，哪个方向 +/-？多少？

这就是导数的用武之地。导数的大值将导致相应权重的大幅调整。这是有道理的，因为如果导数很大，则意味着您远离最小值。换句话说，在由总误差（观察到的与预测的）定义的成本函数表面上，权重会在每次迭代中沿最陡下降方向（导数的最大值）进行调整。

在计算每个模式的误差后（从该迭代期间神经网络预测的值中减去响应变量或输出向量的实际值），权重矩阵中的每个权重都会根据计算出的误差梯度按比例调整.

因为误差计算从 NN 的末尾开始（即在输出层通过从预测中减去观察到的）并进行到最前面，所以它被称为 backprop。

更一般地，优化技术使用导数（或梯度）（对于反向传播，共轭梯度可能是最常见的）定位目标（又名损失）函数的最小值。

它是这样工作的：

一阶导数是曲线上的点，使得与其相切的直线的斜率为 0。

因此，如果您在由目标函数定义的 3D 表面上行走，并且走到坡度 = 0 的点，那么您就处于底部——您找到了一个最小值（无论是全局或本地）的功能。

但一阶导数比这更重要。它还告诉您是否朝着正确的方向前进以达到功能最小值。

如果您考虑一下当曲线/曲面上的点向下移动到函数 minimumn 时切线的斜率会发生什么，就很容易理解为什么会这样。

斜率（因此函数在该点的导数的值）逐渐减小。换句话说，要最小化函数，请遵循导数--即，如果值在减小，那么您正在朝着正确的方向前进。

【讨论】：

他询问了激活函数的导数。您指的是成本函数的导数。
没有。我已经回答了这个问题。为此，有必要讨论整个反向传播流程，并在此过程中提到了激活函数和成本函数。
好的，我认为我现在明白了。但是，使用一个非常小的学习率和这个权重调整规则是否也有效？ New weight = weight + (desired - actual) * learning rate * input 是我所指的规则。有了这个，我们仍然朝着正确的方向前进，例如……如果输入 1 的期望输出为 0，而实际输出为 1，那么我们将计算 weight = weight + (0 - 1) * 0.1 * 1，这基本上会减少 0.1 的权重。但是，让我猜猜 - 因为我们不知道该隐藏单元的期望值，所以这无法完成？
另外，sigmoid 函数的导数永远不会像看起来那样为负，如何减轻体重？
另外，我知道为什么我们需要找到损失函数的最小值，但公式没有使用它，它实际上是使用激活函数！请解释这些事情...

【解决方案2】：

您引用的权重更新公式不仅仅是一些随意的表达。它是通过假设一个误差函数并通过梯度下降最小化它来实现的。因此，激活函数的导数之所以存在，是因为本质上是微积分的链式法则。

关于神经网络的书籍更有可能在反向传播中推导更新规则。例如，Hertz、Krogh 和 Palmer 的神经计算理论导论。

【讨论】：