平方损失函数(quadratic loss function)
L ( y , f ( x ) ) = ( y − f ( x ) ) 2 L(y,f(x)) =(y-f(x))^2 L ( y , f ( x ) ) = ( y − f ( x ) ) 2
误差被不同程度放大或缩小。
平方损失缺点:对于异常点会施以较大的惩罚,因此不够robust。
绝对值损失函数(absolute loss function)
L ( y , f ( x ) ) = ∣ y − f ( x ) ∣ L(y,f(x)) = |y-f(x)| L ( y , f ( x ) ) = ∣ y − f ( x ) ∣
正确表示误差程度。
对于较多异常点,绝对值损失表现较好,但绝对值损失在????−????(????)=0处不连续可导,因此不容易优化。
Huber loss L ( y , f ( x ) ) = { 1 2 [ y − f ( x ) ] 2 ∣ y − f ( x ) ∣ ≤ δ δ ∣ y − f ( x ) ∣ − 1 2 δ 2 ∣ y − f ( x ) ∣ > δ L(y,f(x)) =\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right. L ( y , f ( x ) ) = { 2 1 [ y − f ( x ) ] 2 δ ∣ y − f ( x ) ∣ − 2 1 δ 2 ∣ y − f ( x ) ∣ ≤ δ ∣ y − f ( x ) ∣ > δ
Huber损失综合二者,当|????−????(????)|小于一个事先指定的值????时,变为平方损失,大于????时,则变成类似于绝对值损失,因此也是比较robust的损失函数。
????????(????) 被称为margin,其作用类似于回归问题中的残差 ????−????(????)。最小化损失函数也可以看作是最大化 margin 的过程。
0-1损失函数(0-1 loss function)
预测错误时,损失函数值为1,预测正确时,损失函数值为0,该损失函数不考虑预测值和真实值的误差程度,每个错分类点都施以相同的惩罚, ????????????????????????→−∞的点也并不会受到大的关注。L ( y , f ( x ) ) = { 0 if y f ( x ) ≥ 0 1 if y f ( x ) < 0 L(y,f(x)) = \left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right. L ( y , f ( x ) ) = { 0 if y f ( x ) ≥ 0 1 if y f ( x ) < 0
log对数损失函数(logistic loss function)
L ( y , f ( x ) ) = l o g ( 1 + e − y f ( x ) ) L(y,f(x)) = log(1+e^{-yf(x)}) L ( y , f ( x ) ) = l o g ( 1 + e − y f ( x ) )
P(Y|X):在当前模型的基础上,样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率:P ( y ∣ x ) = 1 1 + e − y f ( x ) P(y|x) = \frac{1}{1+e^{-yf(x)}} P ( y ∣ x ) = 1 + e − y f ( x ) 1
极大似然m a x ( ∏ i = 1 m P ( y i ∣ x i ) ) = m a x ( ∏ i = 1 m 1 1 + e − y i f ( x i ) ) max \left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right) m a x ( i = 1 ∏ m P ( y i ∣ x i ) ) = m a x ( i = 1 ∏ m 1 + e − y i f ( x i ) 1 )
两边取对数,又因为是损失函数,将极大转为极小:m a x ( ∑ i = 1 m l o g P ( y i ∣ x i ) ) = m i n ( ∑ i = 1 m l o g ( 1 + e − y i f ( x i ) ) ) max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right) m a x ( i = 1 ∑ m l o g P ( y i ∣ x i ) ) = m i n ( i = 1 ∑ m l o g ( 1 + e − y i f ( x i ) ) )
交叉熵损失 (cross entropy loss):
二分类问题中logistic loss和交叉熵损失是等价的,二者区别只是标签y的定义不同y ∈ { 0 , 1 } y \in \left\{0,1\right\} y ∈ { 0 , 1 } :P ( y ∣ x ) = y 1 1 + e − f ( x ) + ( 1 − y ) ( 1 − 1 1 + e − f ( x ) ) P(y|x) =y \frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}}) P ( y ∣ x ) = y 1 + e − f ( x ) 1 + ( 1 − y ) ( 1 − 1 + e − f ( x ) 1 )
∑ i = 1 m { − y i log g ( x i ) − ( 1 − y i ) log ( 1 − g ( x i ) } \sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\} i = 1 ∑ m { − y i log g ( x i ) − ( 1 − y i ) log ( 1 − g ( x i ) }
指数损失函数(Exponential loss)
L ( y , f ( x ) ) = e − y f ( x ) L(y,f(x)) = e^{-yf(x)} L ( y , f ( x ) ) = e − y f ( x )
AdaBoost中使用的损失函数,和squared loss一样,对异常点敏感,不够robust。
Hinge loss
L ( y , f ( x ) ) = m a x ( 0 , 1 − y f ( x ) ) L(y,f(x)) = max(0,1-yf(x)) L ( y , f ( x ) ) = m a x ( 0 , 1 − y f ( x ) )
带软间隔svm的优化问题:
m i n w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i \mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\ w , b , ξ min 2 1 ∣ ∣ w ∣ ∣ 2 + C i = 1 ∑ m ξ i
ξ i ⩾ 1 − y i ( w T x i + b ) \xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) ξ i ⩾ 1 − y i ( w T x i + b )
ξ i ⩾ 0 \xi_i \geqslant0 ξ i ⩾ 0
即转化为:m i n C ∑ i = 1 m m a x ( 0 , 1 − y i f ( x i ) ) + 1 2 ∣ ∣ w ∣ ∣ 2 ∝ m i n ∑ i = 1 m m a x ( 0 , 1 − y i f ( x i ) ) ⏟ h i n g e l o s s + λ ∣ ∣ w ∣ ∣ 2 min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad
min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2 m i n C i = 1 ∑ m m a x ( 0 , 1 − y i f ( x i ) ) + 2 1 ∣ ∣ w ∣ ∣ 2 ∝ m i n i = 1 ∑ m h i n g e l o s s m a x ( 0 , 1 − y i f ( x i ) ) + λ ∣ ∣ w ∣ ∣ 2
svm中使用的损失函数,自带参数 ???? 的????2 正则化。
modified Huber loss
L ( y , f ( x ) ) = { m a x ( 0 , 1 − y f ( x ) ) 2 i f y f ( x ) ≥ − 1 − 4 y f ( x ) i f y f ( x ) < − 1 L(y,f(x)) = \left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad L ( y , f ( x ) ) = { m a x ( 0 , 1 − y f ( x ) ) 2 i f y f ( x ) ≥ − 1 − 4 y f ( x ) i f y f ( x ) < − 1
结合了hinge loss和logistic loss的优点,既能在????????(????)>1时产生稀疏解提高训练效率,又能对(????????(????)<1)的样本惩罚以线性增加,这意味着受异常点的干扰较少,比较robust。