统计决策理论
squared error loss L2
Let X∈Rp,Y∈R
Joint distribution,联合分布: Pr(X,Y)
我们希望找到一个函数f(X),对于给定的X来预测Y。首先我们需要一个loss function 损失函数L(Y,f(X))来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:
L(Y,f(X))=(Y−f(X))2(3.1)
标准型:
EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)(3)(4)
在X条件下的条件预测误差:
EPE(f)=EXEY|X([Y−f(X)]2|X)(3.2)
这里期望表示积分,先固定x对y进行积分,然后再对x进行积分。
我们逐点最小化EPE,就可以得到:
f(x)=argmincEY|X([Y−c]2|X=x)(3.3)
它的解是:
f(x)=E(Y|X=x)(3.4)
所以这里在条件X=x的均值可以最好的预测Y。最好的度量是平均平方误差。
可以认为期望就是一些取样点的平均,那么就有最近邻方法:
f^(x)=Ave(yi|xi∈Nk(x))(3.5)
现在再看线性回归拟合线性回归拟合,显然它是f(x)的一个线性近似
f(x)≈xTβ(3.6)
把此式子代入EPE就可以得到
β=[E(XXT)]−1E(XY)(3.7)
最后我们是用数据的训练集来代入计算的。
我们可以得出结论:
- 最小二乘法是假设函数f(X)近似于线性函数
-
k-最近邻方法是假设函数f(x)近似于一个局部常值函
现在我们假设:
f(X)=∑j=1pfj(Xj)(3.8)
任意的fj的选择可以包含以上两种方法。
绝对损失函数 L1
损失函数L1=E|Y−f(X)|,那么条件中值median
f^(x)=median(Y|X=x)(3.9)
0-1损失函数 L
假设output G是一个分类变量categorical variable,G^是 G中的一个估计值(一组可能的类),损失函数可以表示成一个K×K矩阵L,这里K=card(G),G中类的个数。L是一个对角线为0,其他位置非负的矩阵,L(k,l)表示Gl类观测分类到Gk类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把G看成前面的Y,G^(X)可以看成前面的f(X),g相当于前面的c。那么,0-1损失函数的预测误差期望是:
EPE=E[L(G,G^(X))](3.10)
写成添加联合分布的条件概率形式就是:
EPE=EX∑k=1KL[Gk,G^(X)]Pr(Gk|X)(3.11)
逐点极小化EPE就是
G^(x)=argming∈G∑k=1KL(Gk,g)Pr(Gk|X=x)(3.12)
用0-1损失函数这个简化这个模型,也就是说g等于某个Gk0,那么L(Gk0,g)=0,对剩下的部分求和就得到下式:
G^(x)=argming∈G[1−Pr(Gk|X=x)](3.13)
简单写就是
G^(x)=Gk if Pr(Gk|X=x)=maxg∈GPr(g|X=x)(3.14)
这就是贝叶斯分类器Bayes classifier。