梯度下降法和牛顿法学习笔记

梯度下降法

直接举一个二次代价函数的例子，目标函数就是：
$C(\omega, b)=\frac{1}{2n}\sum_x||y(x)-\alpha||^2$
目的就是要寻找合适的 $\omega$ 和 $b$ ，让 $C \simeq 0$ ，让 $y(x)$ 和 $\alpha$ 大小差不多。因此需要最小化这个二次代价函数。
使用 $v$ 代替 $\omega$ 和 $b$ ，假设 $v=v_1,v_2$ ，其函数图像如下：
梯度下降法和牛顿法学习笔记
⾸先把我们的函数想象成⼀个⼭⾕。只要瞄⼀眼上⾯的绘图就不难理解。我们想象有⼀个
小球从⼭⾕的斜坡滚落下来。我们的⽇常经验告诉我们这个球最终会滚到⾕底。当我们在 $v_1$ 和 $v_2$ ⽅向分别将球体移动⼀个很小的量，即 $∆v_1$ 和 $∆v_2$ 时，球体将会发⽣什么情况。微积分告诉我们 C 将会有如下变化：
$∆C=\frac{\partial C}{\partial v_1}∆v_1+\frac{\partial C}{\partial v_2}∆v_2$
我们要寻找⼀种选择 $∆v_1$ 和 $∆v_2$ 的⽅法使得 $∆C$ 为负；即，我们选择它们是为了让球体滚落。定义 $∆v$ 为 $v$ 变化的向量， $∆v = (∆v1, ∆v2)^T$ 。
我们也定义 $C$ 的梯度为偏导数的向量， $(\frac{\partial C}{\partial v_1},\frac{\partial C}{\partial v_2})^T$ 我们⽤ $∇C$ 来表⽰梯度向量，即：
$∇C=(\frac{\partial C}{\partial v_1},\frac{\partial C}{\partial v_2})^T$
⽤ $∆v$ 和梯度 $∇C$ 来重写 $∆C$ 的变化:
$∆C \simeq ∇C · ∆v$
$∇C$ 把 $v$ 的变化关联为 $C$ 的变化，正如我们期望的⽤梯度来表⽰。当选择： $∆v =-η∇C$ 时能够让 $∆C$ 为负数。这⾥的 $η$ 是个很小的正数（称为学习速率）。那么：
$∆C \simeq −η∇C·∇C = η∥∇C∥^2$
由于 $∥∇C∥^2 ≥ 0$ ，这保证了 $∆C ≤ 0$ ，如果按照 $∆C \simeq ∇C · ∆v$ 的规则去改变 $v$ ，那么 $C$ 会⼀直减小，不会增加。
因此使用 $-η∇C$ 计算 $∆v$ ，来移动球体的位置
$v： v → v′ = v - η∇C$
然后我们⽤它再次更新规则来计算下⼀次移动。如果我们反复持续这样做，我们将持续减小 $C$ 直到获得⼀个全局的最小值。
总结⼀下，梯度下降算法⼯作的⽅式就是重复计算梯度 $∇C$ ，然后沿着相反的⽅向移动，沿着⼭⾕“滚落”。我们可以想象它像这样：
梯度下降法和牛顿法学习笔记

牛顿法

考虑无约束最优化问题：
${min}_{x\in R^*}f(x)$
其中 $x^*$ 为目标函数的极小值点。
假设 $f(x)$ 具有二阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f(x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开：
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
此处， $g_k=g(x^{(k)})=∇f(x^{(k)})$ 是 $f(x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f(x)$ 的海塞矩阵：
$H(x)=[\frac{\partial^2f}{\partial x_i\partial x_j}]_{m\times n}$
在点 $x^{(k)}$ 的值。函数 $f(x)$ 有几只的必要条件实在极值点处的一阶导数为0，即梯度向量为0。特别是当 $H(x^{(k)})$ 是正定矩阵时，函数 $f(x)$ 的极值为极小值。
牛顿法利用极小值的必要条件：
$∇f(x)=0$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k+1$ 次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$∇f(x^{(k+1)})=0$
有：
$∇f(x)=g_k+H_k(x-x^{(k)})$
其中 $H_k=H(x^{(k)})$ ，这样就有：
$g_k+H_k(x^{(k+1)}-x^{(k)})=0$
因此：
$x^{(k+1)} = x^{(k)}-H_k^{-1}g_k$
或：
$x^{(k+1)} = x^{(k)}+p_k$
其中， $H_kp_k=-g_k$ 。
使用 $x^{(k+1)} = x^{(k)}-H_k^{-1}g_k$ 作为迭代公式的算法就是牛顿算法。