统计决策理论

squared error loss L2

Let XRp,YR
Joint distribution,联合分布: Pr(X,Y)
我们希望找到一个函数f(X),对于给定的X来预测Y。首先我们需要一个loss function 损失函数L(Y,f(X))来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

(3.1)L(Y,f(X))=(Yf(X))2

标准型:
(3)EPE(f)=E(Yf(X))2(4)=[yf(x)]2Pr(dx,dy)

X条件下的条件预测误差:
(3.2)EPE(f)=EXEY|X([Yf(X)]2|X)

这里期望表示积分,先固定xy进行积分,然后再对x进行积分。
我们逐点最小化EPE,就可以得到:
(3.3)f(x)=argmincEY|X([Yc]2|X=x)

它的解是:
(3.4)f(x)=E(Y|X=x)

所以这里在条件X=x的均值可以最好的预测Y。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均,那么就有最近邻方法

(3.5)f^(x)=Ave(yi|xiNk(x))

现在再看线性回归拟合线性回归拟合,显然它是f(x)的一个线性近似
(3.6)f(x)xTβ

把此式子代入EPE就可以得到
(3.7)β=[E(XXT)]1E(XY)

最后我们是用数据的训练集来代入计算的。
我们可以得出结论:

  • 最小二乘法是假设函数f(X)近似于线性函数
  • k-最近邻方法是假设函数f(x)近似于一个局部常值函
    现在我们假设:

    (3.8)f(X)=j=1pfj(Xj)

    任意的fj的选择可以包含以上两种方法。

    绝对损失函数 L1

    损失函数L1=E|Yf(X)|,那么条件中值median

    (3.9)f^(x)=median(Y|X=x)

0-1损失函数 L

假设output G是一个分类变量categorical variable,G^G中的一个估计值(一组可能的类),损失函数可以表示成一个K×K矩阵L,这里K=card(G)G中类的个数。L是一个对角线为0,其他位置非负的矩阵,L(k,l)表示Gl类观测分类到Gk类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把G看成前面的YG^(X)可以看成前面的f(X)g相当于前面的c。那么,0-1损失函数的预测误差期望是:

(3.10)EPE=E[L(G,G^(X))]

写成添加联合分布的条件概率形式就是:
(3.11)EPE=EXk=1KL[Gk,G^(X)]Pr(Gk|X)

逐点极小化EPE就是
(3.12)G^(x)=argmingGk=1KL(Gk,g)Pr(Gk|X=x)

用0-1损失函数这个简化这个模型,也就是说g等于某个Gk0,那么L(Gk0,g)=0,对剩下的部分求和就得到下式:
(3.13)G^(x)=argmingG[1Pr(Gk|X=x)]

简单写就是
(3.14)G^(x)=Gk if Pr(Gk|X=x)=maxgGPr(g|X=x)

这就是贝叶斯分类器Bayes classifier
机器学习理论笔记(3)

相关文章: