【ML】模型指标与评估

文章导航

损失函数

0-1损失函数
平方损失函数
绝对损失函数
对数损失函数

风险最小化

结构风险最小化

训练误差与测试误差
过拟合与模型选择

损失函数

对于输入 $\mathcal{X}$ ，模型的输出值为 $f(X)$ ，实际值为 $Y$ ，可以定义如下损失函数

0-1损失函数

$L(Y, f(X))= \left\{ \begin{aligned} 1, Y\neq f(X)\\ 0, Y= f(X) \end{aligned} \right.$

平方损失函数

$L(Y, f(X))=(Y-f(X))^2$

绝对损失函数

$L(Y, f(X))=\lvert Y-f(X)\rvert$

对数损失函数

$L(Y, P(Y\mid X))=-\log P(Y\mid X)$
假设模型的输入和输出为遵循联合分布 $P(X, Y)$ 的随机变量，可以得到损失函数的期望（期望风险，expected risk）为
$\begin{aligned} R_{exp}(f)&=\mathbb{E}_P[L(Y, f(X))]\\ &=\int_{\mathcal{X}\times\mathcal{Y}}L(y, f(x))P(x, y)dxdy \end{aligned}$
实际问题中，由于联合分布 $P(X, Y)$ 未知，一般通过训练样本取近似总体的联合分布 $P(X, Y)$ ，不妨设训练样本为
$T={(x_1, y_1), (x_2,y_2),\dots, (x_N, y_N)}$
定义经验风险(empircal risk) $R_{emp}$ 为
$R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))$
期望风险和经验风险的关系如下
$R_{emp}\xRightarrow{N\to\infty}R_{exp}$

风险最小化

当样本容量足够大时，可以使用 $R_{emp}$ 最小化策略进行建模(ERM)，比如极大似然估计，但是当样本容量较小时，该策略会产生过拟合.

结构风险最小化

SRM是为了防止过拟合而提出的策略，在ERM加上了表示模型复杂程度的正则化项
$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))+\lambda J(f)$
SRM等价于最大后验概率估计，如贝叶斯估计中的最大后验概率估计(MAP).

训练误差与测试误差

设学习到的模型为 $\hat{f}(X)$ ，训练误差是模型 $Y=\hat{f}(X)$ 关于训练数据集的平均损失
$R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^NL(y_i, \hat{f}(x_i))$
测试误差是关于测试数据集的平均损失
$e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}L(y_i, \hat{f}(x_i))$

过拟合与模型选择

在确定模型复杂度的情况下，根据ERM策略，求解模型参数
设 $M$ 次多项式为
$f_M(x, w)=w_0+w_1x+\dots+w_Mx^M=\sum_{j=0}^Mw_jx_j$
优化目标函数为
$L(w)=\frac{1}{2}\sum_{i=1}^N(f_M(x, w)-y_i)^2$
模型复杂度与误差之间的关系如下
【ML】模型指标与评估可以发现，当模型的复杂度过大时，会发生过拟合现象，为了选择出复杂度合适的模型，需要进行正则化与交叉验证.