最小二乘法，梯度下降，牛顿法以及高斯牛顿法

作业推导：

$E\left[d^{2}\right]=E\left[\left(S(k)-S_{e}(k)\right)^{2}\right]=E\left[\left(S(k)-\sum_{i=1}^{N} a_{i} S(k-i)\right)^{2}\right]$

为了满足最佳预测需求，令：

$\frac{\partial E\left[d^{2}\right]}{\partial a_{i}}=0 \quad i=1,2, \ldots, N$

有：

$E\left[2\left(S(k)-\sum_{m\neq{i}}^{N}a_{m} S(k-m)\right)S\left(k-i\right)\right]=E\left[2\left(S(k)S\left(k-i\right)-\sum_{m\neq{i}}^{N}a_{m} S(k-m)S\left(k-i\right)\right)\right]=0$

那么可以得到：

$E\left[S(k\right)S\left(k-i)\right]=E\left[\left(\sum_{m\neq{i}}^{N}a_{m} S(k-m)\right)S\left(k-i\right)\right]=\sum_{m\neq{i}}^{N}E\left[S(k-m)S(k-i))\right]$

利用自相关函数的定义 $\boldsymbol{R}(\boldsymbol{i})=\boldsymbol{E}[\boldsymbol{S}(\boldsymbol{k}) \boldsymbol{S}(\boldsymbol{k}-\boldsymbol{i})],i=0,1,2, \ldots, N-1$ ，可以将上式展开为：

$R(1) = a_1R(0)+a_2R(1)+\cdots+a_NR(N-1)$

$R(2) = a_1R(1)+a_2R(0)+\cdots+a_NR(N-2)$

$\vdots$

$R(N) = a_1R(N-1)+a_2R(N-2)+\cdots+a_NR(0)$

写成矩阵形式即为：

$\left[\begin{array}{l}R(1) \\ R(2) \\ \vdots \\ R(N)\end{array}\right]=\left[\begin{array}{llll}R(0) & R(1) & \cdots & R(N-1) \\ R(1) & R(0) & \cdots & R(N-2) \\ \vdots & \vdots & & \vdots\\ R(N-1) &R(N-2) & \dots & R(0)\end{array}\right]\left[\begin{array}{l}a_{1} \\ a_{2} \\ \vdots \\ a_{N}\end{array}\right]$

最小二乘法

假设需要描述一个解不存在的巨型方程组 $A\boldsymbol{x}=\boldsymbol{b}$ （比如线性回归问题），通常做法是寻找一个 $\boldsymbol{x}$ ,使得 $A\boldsymbol{x}$ 尽量接近 $\boldsymbol{b}$ 。这里通常使用距离来描述近似，即找出使得 $\|\mathbf{b}-A \mathbf{x}\|$ 尽量小的 $\boldsymbol{x}$ 。

定义

If $A$ is $m \times n$ and $\mathbf{b}$ is in $\mathbb{R}^{m}$ , a least-squares solution of $A \mathbf{x}=\mathbf{b}$ is an $\hat{\mathbf{x}}$ in $\mathbb{R}^{n}$ such that

$\|\mathbf{b}-A \hat{\mathbf{x}}\| \leq\|\mathbf{b}-A \mathbf{x}\|$
for all $\mathbf{x}$ in $\mathbb{R}^{n}$

定义损失函数 $L(\boldsymbol{x})=\sum^m_{i=1}\|\boldsymbol{A}_i\boldsymbol{x}-b_i\|^2$ ,其中 $\boldsymbol{A}_i$ 是A中的第i行。

可以对 $L(\boldsymbol{x})$ 进行化简：

$L(\boldsymbol{x})=(\boldsymbol{x}^TA^T-\boldsymbol{b}^T)(A\boldsymbol{x}-\boldsymbol{b})$

展开可得

$L(\boldsymbol{x})=(A\boldsymbol{x})^TA\boldsymbol{x}-2(A\boldsymbol{x})^T\boldsymbol{b}+\boldsymbol{b}^T\boldsymbol{b}$

那么现在的任务就是找到 $\boldsymbol{x}$ 满足 $\boldsymbol{x}=arg(min(L(\boldsymbol{x})))$

令 $\frac{\partial L(\boldsymbol{x})}{\boldsymbol{x}}=2A^TA\boldsymbol{x}-2A^T\boldsymbol{b}=0$

即 $A^TA\boldsymbol{x}=A^T\boldsymbol{b}$

当 $A^TA$ 可逆的时候，可以解得

$\boldsymbol{x}=(A^TA)^{-1}A^T\boldsymbol{b}$

计算时间复杂度为 $O(n^2m)$ .

当矩阵具有某些特殊结构的时候，可以使用算法快速求解最小二乘问题。

有时样本数目不够多或者样本的维度过大，那么就有可能造成过拟合。这时候可以采用正则化的方法，在损失函数中增加一些多余的项，如：

$L(\boldsymbol{x})=(\boldsymbol{x}^TA^T-\boldsymbol{b}^T)(A\boldsymbol{x}-\boldsymbol{b})+\rho \boldsymbol{x}^T\boldsymbol{x}$

算法

梯度下降

使用负梯度作为搜算个方向。即令 $\Delta{x}=-\nabla f(x)$ 。

步骤

给定初始点 $x\in \boldsymbol{dom} f$

重复进行

$\Delta{x}:=-\nabla f(x)$
- 检验是否满足停止准则，如果满足则停止。不满足则进行后续步骤。
- 直线搜索。通过精确或回溯直线搜索方法确定步长t。
- 修改。 $x:=x+t\Delta x$

停止准则通常取为 $\|\nabla f(x)\|\le \eta$ 。

梯度下降法考虑的是局部性质。对于许多问题，下降速度非常反满。当函数的等值曲线接近一个圆(球)时，最速下降法较快；当其为一个椭球时，最开始几步下降较快，后来就出现锯齿现象，下降缓慢。

牛顿法

牛顿法的思想是利用 $f(x)$ 的泰勒级数前面几项来寻找方程 $f(x)=0$ 的根。

Newton步径

对于 $x\in \boldsymbol{dom} f$ ,称向量 $\Delta x_{\mathrm{nt}}=-\nabla^{2} f(x)^{-1} \nabla f(x)$ 为f在x处的Newton步径。除非 $\nabla f(x)=0$ ,否则都会有：

$\nabla f(x)^{T} \Delta x_{\mathrm{nt}}=-\nabla f(x)^{T} \nabla^{2} f(x)^{-1} \nabla f(x)<0$

所以Newton步径是下降方向，除非x为最有点。

函数f在x处的二阶泰勒展开为 $\hat{f}$ 为：

$\widehat{f}(x+v)=f(x)+\nabla f(x)^{T} v+\frac{1}{2} v^{T} \nabla^{2} f(x) v$

这是v的二次凸函数，在 $v=\Delta x_{nt}$ 处达到最小值。因此x加上Newton步径能够极小化f在x处的二阶近似。

最小二乘法，梯度下降，牛顿法以及高斯牛顿法

Newton减量

将

$\lambda(x)=\left(\nabla f(x)^{T} \nabla^{2} f(x)^{-1} \nabla f(x)\right)^{1 / 2}$

称为x处的Newton减量。

Newton减量也可以表示为 $\lambda(x)=\left(\Delta x_{\mathrm{nt}}^{T} \nabla^{2} f(x) \Delta x_{\mathrm{nt}}\right)^{1 / 2}$ 。在回溯直线搜索中可以呗解释为f在x处沿Newton步径方向的方向导数，即：

$-\lambda(x)^{2}=\nabla f(x)^{T} \Delta x_{\mathrm{nt}}=\left.\frac{d}{d t} f\left(x+\Delta x_{\mathrm{nt}} t\right)\right|_{t=0}$

Newton减量也是仿射不变的。

算法步骤

给定初始点 $x \in \boldsymbol{dom} f$ ,误差阈值 $\epsilon>0$

重复进行

计算Newton步径和Newton减量.

$\Delta x_{\mathrm{nt}}:=-\nabla^{2} f(x)^{-1} \nabla f(x) ; \quad \lambda^{2}:=\nabla f(x)^{T} \nabla^{2} f(x)^{-1} \nabla f(x)$
停止准则:如果 $\lambda^{2} / 2 \leqslant \epsilon$ ,退出.
直线搜素:通过回溯直线确定搜索步长t.
改进: $x:=x+t\Delta x_{nt}$

高斯牛顿法

高斯牛顿法适用于非线性最小二乘问题,并且只能处理二次函数.

对于非线性最小二乘问题 $x=\arg \min _{x} \frac{1}{2}\|f(x)\|^{2}$

高斯牛顿法的思想是把 $f(x)$ 泰勒展开,取一阶近似项.

$f(x+\Delta x)=f(x)+f^{\prime}(x) \Delta x=f(x)+J(x) \Delta x$

对上式求导,并令其为0.

有 $J(x)^{T} J(x) \Delta x=-J(x)^{T} f(x)$

其中 $J(x)=\left[\begin{array}{c}\frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}}\end{array}\right]$ .

令 $H=J^{T} J, \quad B=-J^{T} f$ ，则上式可化为 $H\Delta x = B$ ,从而可以得到调整量 $\Delta x$ .这就要求H可逆。

步骤

给定初始点 $x \in \boldsymbol{dom} f$

重复进行

计算 $J,H,B$ ,从而得到 $\Delta x$
如果满足停止准则则退出
改进: $x:=x+t\Delta x_{nt}$