作业推导:
E[d2]=E[(S(k)−Se(k))2]=E⎣⎡(S(k)−i=1∑NaiS(k−i))2⎦⎤
为了满足最佳预测需求,令:
∂ai∂E[d2]=0i=1,2,…,N
有:
E⎣⎡2⎝⎛S(k)−m=i∑NamS(k−m)⎠⎞S(k−i)⎦⎤=E⎣⎡2⎝⎛S(k)S(k−i)−m=i∑NamS(k−m)S(k−i)⎠⎞⎦⎤=0
那么可以得到:
E[S(k)S(k−i)]=E⎣⎡⎝⎛m=i∑NamS(k−m)⎠⎞S(k−i)⎦⎤=m=i∑NE[S(k−m)S(k−i))]
利用自相关函数的定义R(i)=E[S(k)S(k−i)],i=0,1,2,…,N−1,可以将上式展开为:
R(1)=a1R(0)+a2R(1)+⋯+aNR(N−1)
R(2)=a1R(1)+a2R(0)+⋯+aNR(N−2)
⋮
R(N)=a1R(N−1)+a2R(N−2)+⋯+aNR(0)
写成矩阵形式即为:
⎣⎢⎢⎢⎡R(1)R(2)⋮R(N)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡R(0)R(1)⋮R(N−1)R(1)R(0)⋮R(N−2)⋯⋯…R(N−1)R(N−2)⋮R(0)⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡a1a2⋮aN⎦⎥⎥⎥⎤
最小二乘法
假设需要描述一个解不存在的巨型方程组Ax=b(比如线性回归问题),通常做法是寻找一个x,使得Ax尽量接近b。这里通常使用距离来描述近似,即找出使得∥b−Ax∥尽量小的x。
定义
If A is m×n and b is in Rm, a least-squares solution of Ax=b is an x^ in Rn such that
∥b−Ax^∥≤∥b−Ax∥
for all x in Rn
定义损失函数L(x)=∑i=1m∥Aix−bi∥2,其中Ai是A中的第i行。
可以对L(x)进行化简:
L(x)=(xTAT−bT)(Ax−b)
展开可得
L(x)=(Ax)TAx−2(Ax)Tb+bTb
那么现在的任务就是找到x满足x=arg(min(L(x)))
令x∂L(x)=2ATAx−2ATb=0
即ATAx=ATb
当ATA可逆的时候,可以解得
x=(ATA)−1ATb
计算时间复杂度为O(n2m).
当矩阵具有某些特殊结构的时候,可以使用算法快速求解最小二乘问题。
有时样本数目不够多或者样本的维度过大,那么就有可能造成过拟合。这时候可以采用正则化的方法,在损失函数中增加一些多余的项,如:
L(x)=(xTAT−bT)(Ax−b)+ρxTx
算法
梯度下降
使用负梯度作为搜算个方向。即令Δx=−∇f(x) 。
步骤
给定 初始点x∈domf
重复进行
-
Δx:=−∇f(x)
- 检验是否满足停止准则,如果满足则停止。不满足则进行后续步骤。
-
直线搜索。通过精确或回溯直线搜索方法确定步长t。
-
修改。x:=x+tΔx
停止准则通常取为∥∇f(x)∥≤η。
梯度下降法考虑的是局部性质。对于许多问题,下降速度非常反满。当函数的等值曲线接近一个圆(球)时,最速下降法较快;当其为一个椭球时,最开始几步下降较快,后来就出现锯齿现象,下降缓慢。
牛顿法
牛顿法的思想是利用f(x)的泰勒级数前面几项来寻找方程f(x)=0的根。
Newton步径
对于x∈domf,称向量Δxnt=−∇2f(x)−1∇f(x)为f在x处的Newton步径。除非∇f(x)=0,否则都会有:
∇f(x)TΔxnt=−∇f(x)T∇2f(x)−1∇f(x)<0
所以Newton步径是下降方向,除非x为最有点。
函数f在x处的二阶泰勒展开为f^为:
f(x+v)=f(x)+∇f(x)Tv+21vT∇2f(x)v
这是v的二次凸函数,在v=Δxnt处达到最小值。因此x加上Newton步径能够极小化f在x处的二阶近似。

Newton减量
将
λ(x)=(∇f(x)T∇2f(x)−1∇f(x))1/2
称为x处的Newton减量。
Newton减量也可以表示为λ(x)=(ΔxntT∇2f(x)Δxnt)1/2。在回溯直线搜索中可以呗解释为f在x处沿Newton步径方向的方向导数,即:
−λ(x)2=∇f(x)TΔxnt=dtdf(x+Δxntt)∣∣∣∣t=0
Newton减量也是仿射不变的。
算法步骤
给定 初始点x∈domf,误差阈值ϵ>0
重复进行
-
计算Newton步径和Newton减量.
Δxnt:=−∇2f(x)−1∇f(x);λ2:=∇f(x)T∇2f(x)−1∇f(x)
-
停止准则:如果λ2/2⩽ϵ,退出.
-
直线搜素:通过回溯直线确定搜索步长t.
-
改进:x:=x+tΔxnt
高斯牛顿法
高斯牛顿法适用于非线性最小二乘问题,并且只能处理二次函数.
对于非线性最小二乘问题x=argminx21∥f(x)∥2
高斯牛顿法的思想是把f(x)泰勒展开,取一阶近似项.
f(x+Δx)=f(x)+f′(x)Δx=f(x)+J(x)Δx
对上式求导,并令其为0.
有J(x)TJ(x)Δx=−J(x)Tf(x)
其中J(x)=[∂x1∂f∂x2∂f].
令H=JTJ,B=−JTf,则上式可化为HΔx=B,从而可以得到调整量Δx.这就要求H可逆。
步骤
给定 初始点x∈domf
重复进行
- 计算J,H,B,从而得到Δx
- 如果满足停止准则则退出
- 改进:x:=x+tΔxnt