机器学习task1——线性回归

1 过拟合

机器学习task1——线性回归

参考链接：

机器学习中用来防止过拟合的方法有哪些

Normalization方法：BN，LN 等

L1 与 L2 正则化的区别

2 线性回归优化方法

优化方法：

梯度下降法
最小二乘法（公式法）
牛顿法
拟牛顿法

2.1 牛顿法

牛顿法推导：

将 $f(x)$ 用泰勒公式展开到二阶，

$f(x_{t+1}) = f(x_t) + f'(x_t)(x_{t+1} - x_t)+\frac{1}{2}f''(x_t)(x_{t+1} - x_t)^2$

对上式求导，并令导数等于0，求得x值

$f'(x_{t+1}) = f'(x_t) + f''(x_t)x_{t+1} -f''(x_t)x_t = 0$

可以求得，迭代公式为：

$x_{t+1} = x_t - \frac{f'(x_t)}{f''(x_t)}$

推广到向量的情况，牛顿法公式为：
$\theta :=\theta-\frac{l'(\theta)}{l''(\theta)}$

$当\theta是向量值的时候，\theta :=\theta - H^{-1}\Delta_{\theta}l(\theta)$

其中， $\Delta_{\theta}l(\theta)$ 是 $l(\theta)$ 对 $\theta_i$ 的偏导数， $H$ 是 $J(\theta)$ 的海森矩阵，
$H_{ij} = \frac{\partial ^2l(\theta)}{\partial\theta_i\partial\theta_j}$

网上一个牛顿法求解的例子：

机器学习task1——线性回归

牛顿法优缺点：

收敛速度快，比梯度下降法迭代次数少很多
每次迭代都需要计算海森矩阵，计算较复杂，耗费计算成本

2.2 拟牛顿法

拟牛顿法的思路是用一个矩阵替代计算复杂的海森矩阵H，因此要找到符合H性质的矩阵。

要求得海森矩阵符合的条件，同样对泰勒公式求导 $f'(x) = f'(x_0) + f''(x_0)x -f''(x_0)x_0$

令 $x = x_1$ ，即迭代后的值，代入可得：

$f'(x_1) = f'(x_0) + f''(x_0)x_1 - f''(x_0)x_0$

更一般的，

$f'(x_{k+1}) = f'(x_k) + f''(x_k)x_{k+1} - f''(x_k)x_k$

$f'(x_{k+1}) - f'(x_k) = f''(x_k)(x_{k+1}- x_k)= H(x_{k+1}- x_k)$

$x_k$ 为第k个迭代值

即找到矩阵G，使得它符合上式。
常用的拟牛顿法的算法包括DFP，BFGS等。

参考链接
拟牛顿法常用的算法DFP，BFGS等