损失函数

对于输入X\mathcal{X},模型的输出值为f(X)f(X),实际值为YY,可以定义如下损失函数

0-1损失函数

L(Y,f(X))={1,Yf(X)0,Y=f(X) L(Y, f(X))= \left\{ \begin{aligned} 1, Y\neq f(X)\\ 0, Y= f(X) \end{aligned} \right.

平方损失函数

L(Y,f(X))=(Yf(X))2 L(Y, f(X))=(Y-f(X))^2

绝对损失函数

L(Y,f(X))=Yf(X) L(Y, f(X))=\lvert Y-f(X)\rvert

对数损失函数

L(Y,P(YX))=logP(YX) L(Y, P(Y\mid X))=-\log P(Y\mid X)
假设模型的输入和输出为遵循联合分布P(X,Y)P(X, Y)的随机变量,可以得到损失函数的期望(期望风险,expected risk)为
Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy \begin{aligned} R_{exp}(f)&=\mathbb{E}_P[L(Y, f(X))]\\ &=\int_{\mathcal{X}\times\mathcal{Y}}L(y, f(x))P(x, y)dxdy \end{aligned}
实际问题中,由于联合分布P(X,Y)P(X, Y)未知,一般通过训练样本取近似总体的联合分布P(X,Y)P(X, Y),不妨设训练样本为
T=(x1,y1),(x2,y2),,(xN,yN) T={(x_1, y_1), (x_2,y_2),\dots, (x_N, y_N)}
定义经验风险(empircal risk)RempR_{emp}
Remp=1Ni=1NL(yi,f(xi)) R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))
期望风险和经验风险的关系如下
RempNRexp R_{emp}\xRightarrow{N\to\infty}R_{exp}

风险最小化

当样本容量足够大时,可以使用RempR_{emp}最小化策略进行建模(ERM),比如极大似然估计,但是当样本容量较小时,该策略会产生过拟合.

结构风险最小化

SRM是为了防止过拟合而提出的策略,在ERM加上了表示模型复杂程度的正则化项
Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))+\lambda J(f)
SRM等价于最大后验概率估计,如贝叶斯估计中的最大后验概率估计(MAP).

训练误差与测试误差

设学习到的模型为f^(X)\hat{f}(X),训练误差是模型Y=f^(X)Y=\hat{f}(X)关于训练数据集的平均损失
Remp(f^)=1Ni=1NL(yi,f^(xi)) R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^NL(y_i, \hat{f}(x_i))
测试误差是关于测试数据集的平均损失
etest=1Ni=1NL(yi,f^(xi)) e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}L(y_i, \hat{f}(x_i))

过拟合与模型选择

在确定模型复杂度的情况下,根据ERM策略,求解模型参数
MM次多项式为
fM(x,w)=w0+w1x++wMxM=j=0Mwjxj f_M(x, w)=w_0+w_1x+\dots+w_Mx^M=\sum_{j=0}^Mw_jx_j
优化目标函数为
L(w)=12i=1N(fM(x,w)yi)2 L(w)=\frac{1}{2}\sum_{i=1}^N(f_M(x, w)-y_i)^2
模型复杂度与误差之间的关系如下
【ML】模型指标与评估可以发现,当模型的复杂度过大时,会发生过拟合现象,为了选择出复杂度合适的模型,需要进行正则化与交叉验证.

相关文章: