总结最小二乘法、梯度下降、牛顿法、高斯牛顿法

一：线性预测器设计相关推导

二：最小二乘法

基本思想：最小二乘法则是一种统计学习优化技术，它的目标是最小化误差平方之和来作为目标，从而找到最优模型，这个模型可以拟合（fit）观察数据。
回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以用著名的最小二乘法来解决。最小二乘法就是曲线拟合的一种解决方法。
最小二乘法的问题分为两类：

线性最小二乘法
非线性最小二乘法

如果是线性的则有闭式解(closed-form solution)，唯一解。理解为所有点都在某条线上，全拟合好了。
非线性的经常需要数值方法来求解。比如：随机梯度下降或者牛顿法等。当然，随机梯度下降也可以解决线性问题。

目标公式：
总结最小二乘法、梯度下降、牛顿法、高斯牛顿法

最小二乘法的目标就是最小化公式1。f则是模型（取自假设空间），y则是观察值。
通俗来讲，就是观察值和拟合值(模型给出）之间的距离平方和最小化作为目标来优化。

求解方法：

1.矩阵求导方法
把目标函数划归为矩阵运算问题，然后求导后等于0，从而得到极值。以线性回归问题为例：
求解最小二乘的问题推导为如下：
求解变量θ，满足
总结最小二乘法、梯度下降、牛顿法、高斯牛顿法
若矩阵可逆，则有：

利用矩阵求解

2.梯度下降
对参数向量求导，使其梯度为0，然后得到参数变量的迭代更新公式。
总结最小二乘法、梯度下降、牛顿法、高斯牛顿法
梯度下降求解

3.牛顿法
并不是所有的方程都有求根公式，或者求根公式很复杂，导致求解困难。利用牛顿法，可以迭代求解。
原理是利用泰勒公式，在x0处泰勒展开到一阶，即：f(x) = f(x0)+(x－x0)f’(x0)
求解方程：f(x)=0，即：f(x0)+(x-x0)f’(x0)=0，求解：x = x1=x0－f(x0)/f’(x0)，
利用泰勒公式的一阶展开，f(x) = f(x0)+(x－x0)f’(x0)处只是近似相等，这里求得的x1并不能让f（x）=0，只能说f(x1)的值比f(x0)更接近f（x）=0，于是乎，迭代求解的想法就很自然了，可以进而推出x(n+1)=x(n)－f(x(n))/f’(x(n))，通过迭代，这个式子必然在f（x）=0的时候收敛。整个过程如下图：
总结最小二乘法、梯度下降、牛顿法、高斯牛顿法
牛顿法求解

4.高斯牛顿法
高斯–牛顿迭代法的基本思想是使用泰勒级数展开式去近似地代替非线性回归模型，然后通过多次迭代，多次修正回归系数，使回归系数不断逼近非线性回归模型的最佳回归系数，最后使原模型的残差平方和达到最小。
总结最小二乘法、梯度下降、牛顿法、高斯牛顿法

高斯牛顿法