支持向量机(SVM)第三章---软间隔

参考周老师《机器学习》

在前面两章里，我们都是假设样本在原始空间或者高维空间里线性可分，并且我们提到核函数的选择成为SVM的关键。即使我们找到了合适的核函数，也难断定是否是因过拟合造成的。

引入软间隔，允许一些样本不满足约束条件。在前面两章所介绍的都是硬间隔，即所有样本都必须满足约束条件。

优化目标为：
$min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} l_{0 / 1} (y_{i} (w^{T} x_{i} + b) - 1)$
其中 $C > 0$ 是一个常数， $l_{0 / 1}$ 是”0-1损失函数“。

$z < 0$ ， $l_{0 / 1} (z) = 1$
$z \geq 0, l_{0 / 1} = 0$

然而 $l_{0 / 1}$ 是非凸、非连续的，因此需要一些“替代损失”，它们是凸的连续的且是 $l_{0 / 1}$ 的上界。比如：hinge损失、指数损失、对率损失

用hinge损失代替优化目标里的0-1损失：
$min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} m a x (0, - (y_{i} (w^{T} x_{i} + b) - 1))$

引入松弛变量 $ξ_{i} \geq 0$ ,又可进一步重写为：
$min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i}$
$s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}$
$ξ_{i} \geq 0, i = 1, 2, . . ., n$

通过拉格朗日乘子法可以得到对应的拉格朗日函数：
$L (w, b, ξ) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i} + \sum_{i = 1}^{n} β_{i} (- ξ_{i}) + \sum_{i = 1}^{n} α_{i} (1 - ξ_{i} - y_{i} (w^{T} x_{i} + b))$
其中 $α_{i} \geq 0, β_{i} \geq 0$ 是拉格朗日乘子
$\frac{\partial L}{\partial w} = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0$
$w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}$
$\frac{\partial L}{\partial b} = \sum_{i = 1}^{n} - α_{i} y_{i} = 0$
$\sum_{i = 1}^{n} α_{i} y_{i} = 0$
$\frac{\partial L}{\partial ξ_{i}} = C - β_{i} - α_{i} = 0$
$C = β_{i} + α_{i}$

带入上面的拉格朗日函数便得到软间隔支持向量机的对偶问题：

软间隔支持向量机的KKT条件：

$\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0, \frac{\partial L}{\partial ξ_{i}} = 0$
$- ξ_{i} \leq 0, 1 - ξ_{i} - y_{i} (w^{T} x_{i} + b) \leq 0$
$α_{i} \geq 0, β_{i} \geq 0$
$α_{i} (1 - ξ_{i} - y_{i} (w^{T} x_{i} + b)) = 0, β_{i} (- ξ_{i}) = 0$

最终的模型仍是：
$f (x) = w^{T} x + b = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}^{T} x + b$

根据KKT可知：
$α_{i} = 0$ 对应的样本不对 $f (x)$ 产生影响；当 $α_{i} > 0$ 时，此时对应的样本是支持向量，如果 $α_{i} < C$ ，根据 $C = α_{i} + β_{i}$ ,可知 $β_{i} > 0$ ，那么 $ξ_{i} = 0$ ，则该样本在最大间隔边界上；如果 $α_{i} = C$ ,那么 $β_{i} = 0$ ,如果 $ξ_{i} \leq 1$ ，则样本落在最大间隔内部，若 $ξ_{i} > 1$ ,则样本被错误分类。

软间隔支持向量机的最终模型同样只与支持向量有关，通过hinge损失函数保持了解的稀疏性。