ERROR

损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。

Loss Function

回归损失 L(y,f(x))=yf(x)L(y,f(x)) =y-f(x)

残差 ????−????(????)来度量二者的不一致程度。

  • 平方损失函数(quadratic loss function)

    L(y,f(x))=(yf(x))2L(y,f(x)) =(y-f(x))^2

    误差被不同程度放大或缩小。
    平方损失缺点:对于异常点会施以较大的惩罚,因此不够robust。

  • 绝对值损失函数(absolute loss function)

    L(y,f(x))=yf(x)L(y,f(x)) = |y-f(x)|

    正确表示误差程度。
    对于较多异常点,绝对值损失表现较好,但绝对值损失在????−????(????)=0处不连续可导,因此不容易优化。

  • Huber loss
    L(y,f(x))={12[yf(x)]2yf(x)δδyf(x)12δ2yf(x)>δL(y,f(x)) =\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right.
    Huber损失综合二者,当|????−????(????)|小于一个事先指定的值????时,变为平方损失,大于????时,则变成类似于绝对值损失,因此也是比较robust的损失函数。
    ML- error Loss Function

分类损失 L(y,f(x))=yf(x)L(y,f(x)) =yf(x)

????????(????) 被称为margin,其作用类似于回归问题中的残差 ????−????(????)。最小化损失函数也可以看作是最大化 margin 的过程。

  • 0-1损失函数(0-1 loss function)
    预测错误时,损失函数值为1,预测正确时,损失函数值为0,该损失函数不考虑预测值和真实值的误差程度,每个错分类点都施以相同的惩罚, ????????????????????????→−∞的点也并不会受到大的关注。
    L(y,f(x))={0if    yf(x)01if    yf(x)<0L(y,f(x)) = \left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right.

  • log对数损失函数(logistic loss function)

    L(y,f(x))=log(1+eyf(x))L(y,f(x)) = log(1+e^{-yf(x)})

    P(Y|X):在当前模型的基础上,样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率:
    P(yx)=11+eyf(x)P(y|x) = \frac{1}{1+e^{-yf(x)}}
    极大似然
    max(i=1mP(yixi))=max(i=1m11+eyif(xi))max \left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right)
    两边取对数,又因为是损失函数,将极大转为极小:
    max(i=1mlogP(yixi))=min(i=1mlog(1+eyif(xi)))max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right)

  • 交叉熵损失 (cross entropy loss):

    二分类问题中logistic loss和交叉熵损失是等价的,二者区别只是标签y的定义不同
    y{0,1}y \in \left\{0,1\right\}
    P(yx)=y11+ef(x)+(1y)(111+ef(x))P(y|x) =y \frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}})

    i=1m{yilogg(xi)(1yi)log(1g(xi)} \sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\}

  • 指数损失函数(Exponential loss)

    L(y,f(x))=eyf(x)L(y,f(x)) = e^{-yf(x)}

    AdaBoost中使用的损失函数,和squared loss一样,对异常点敏感,不够robust。

  • Hinge loss

    L(y,f(x))=max(0,1yf(x))L(y,f(x)) = max(0,1-yf(x))

    带软间隔svm的优化问题:

    minw,b,ξ12w2+Ci=1mξi\mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\

    ξi1yi(wTxi+b)\xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b)

    ξi0\xi_i \geqslant0
    即转化为:
    min  Ci=1mmax(0,1yif(xi))+12w2min  i=1mmax(0,1yif(xi))hinge  loss+λw2min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2

    svm中使用的损失函数,自带参数 ???? 的????2 正则化。

  • modified Huber loss

    L(y,f(x))={max(0,1yf(x))2if    yf(x)14yf(x)    if    yf(x)<1L(y,f(x)) = \left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad

    结合了hinge loss和logistic loss的优点,既能在????????(????)>1时产生稀疏解提高训练效率,又能对(????????(????)<1)的样本惩罚以线性增加,这意味着受异常点的干扰较少,比较robust。

ML- error Loss Function
logistic loss和hinge loss是线性增长,exponential loss是以指数增长。
对于modified huber loss:
ML- error Loss Function

相关文章:

  • 2021-08-17
  • 2021-05-27
  • 2021-06-17
  • 2021-11-27
  • 2021-10-28
  • 2021-10-11
  • 2021-07-09
  • 2022-12-23
猜你喜欢
  • 2022-01-03
  • 2021-11-14
  • 2022-02-16
  • 2021-10-08
  • 2021-10-20
  • 2021-11-18
相关资源
相似解决方案