ML- error Loss Function

ERROR

损失函数（Loss Function）：是定义在单个样本上的，是指一个样本的误差。

Loss Function

回归损失 $L(y,f(x)) =y-f(x)$

残差 ????−????(????)来度量二者的不一致程度。

平方损失函数（quadratic loss function）

$L(y,f(x)) =(y-f(x))^2$

误差被不同程度放大或缩小。
平方损失缺点：对于异常点会施以较大的惩罚，因此不够robust。
绝对值损失函数（absolute loss function）

$L(y,f(x)) = |y-f(x)|$

正确表示误差程度。
对于较多异常点，绝对值损失表现较好，但绝对值损失在????−????(????)=0处不连续可导，因此不容易优化。
Huber loss
$L(y,f(x)) =\left\{\begin{matrix}\frac12[y-f(x)]^2 & \qquad |y-f(x)| \leq \delta \\ \delta|y-f(x)| - \frac12\delta^2 & \qquad |y-f(x)| > \delta\end{matrix}\right.$
Huber损失综合二者，当|????−????(????)|小于一个事先指定的值????时，变为平方损失，大于????时，则变成类似于绝对值损失，因此也是比较robust的损失函数。

分类损失 $L(y,f(x)) =yf(x)$

????????(????) 被称为margin，其作用类似于回归问题中的残差 ????−????(????)。最小化损失函数也可以看作是最大化 margin 的过程。

0-1损失函数（0-1 loss function）
预测错误时，损失函数值为1，预测正确时，损失函数值为0，该损失函数不考虑预测值和真实值的误差程度，每个错分类点都施以相同的惩罚， ????????????????????????→−∞的点也并不会受到大的关注。
$L(y,f(x)) = \left\{\begin{matrix} 0 \qquad \text{if} \;\; yf(x)\geq0 \\ 1 \qquad \text{if} \;\; yf(x) < 0\end{matrix}\right.$
log对数损失函数（logistic loss function）

$L(y,f(x)) = log(1+e^{-yf(x)})$

P(Y|X)：在当前模型的基础上，样本X预测值为Y即预测正确的概率。使用Sigmoid函数表示预测概率：
$P(y|x) = \frac{1}{1+e^{-yf(x)}}$
极大似然
$max \left(\prod\limits_{i=1}^m P(y_i|x_i)\right) = max \left(\prod\limits_{i=1}^m \frac{1}{1+e^{-y_if(x_i)}}\right)$
两边取对数，又因为是损失函数，将极大转为极小：
$max\left(\sum\limits_{i=1}^m logP(y_i|x_i)\right) = min \left(\sum\limits_{i=1}^m log({1+e^{-y_if(x_i)}})\right)$
交叉熵损失 (cross entropy loss)：

二分类问题中logistic loss和交叉熵损失是等价的，二者区别只是标签y的定义不同
$y \in \left\{0,1\right\}$ ：
$P(y|x) =y \frac{1}{1+e^{-f(x)}}+(1-y)(1-\frac{1}{1+e^{-f(x)}})$

$\sum\limits_{i=1}^m \big\{ -y_i\log g(x_i) - (1-y_i)\log (1-g(x_i)\big\}$
指数损失函数(Exponential loss)

$L(y,f(x)) = e^{-yf(x)}$

AdaBoost中使用的损失函数，和squared loss一样，对异常点敏感，不够robust。
Hinge loss

$L(y,f(x)) = max(0,1-yf(x))$

带软间隔svm的优化问题：

$\mathop{min}\limits_{\boldsymbol{w},b,\xi} \frac12 ||\boldsymbol{w}||^2 + C\sum\limits_{i=1}^m\xi_i \\$

$\xi_i \geqslant 1 - y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b)$

$\xi_i \geqslant0$
即转化为：
$min\; C\sum\limits_{i=1}^m max(0,\, 1-y_if(x_i)) + \frac12 ||\boldsymbol{w}||^2 \quad {\large \propto} \quad min\; \sum\limits_{i=1}^m \underbrace{max(0,\, 1-y_if(x_i))}_{hinge \; loss} + \lambda ||\boldsymbol{w}||^2$

svm中使用的损失函数，自带参数 ???? 的????2 正则化。
modified Huber loss

$L(y,f(x)) = \left \{\begin{matrix} max(0,1-yf(x))^2 \qquad if \;\;yf(x)\geq-1 \\ \qquad-4yf(x) \qquad\qquad\;\; if\;\; yf(x)<-1\end{matrix}\right.\qquad$

结合了hinge loss和logistic loss的优点，既能在????????(????)>1时产生稀疏解提高训练效率，又能对(????????(????)<1)的样本惩罚以线性增加，这意味着受异常点的干扰较少，比较robust。

ML- error Loss Function
logistic loss和hinge loss是线性增长，exponential loss是以指数增长。
对于modified huber loss：