SVM损失函数 - 爱码网

SVM

最大间隔
决策公式
目标函数
损失函数

最大间隔

SVM损失函数
让最大间隔作为衡量一条决策边界的好还的原因是，如果一条决策边界有最大间隔，那么这条决策边界就具有很好的鲁棒性，相当于增加了一个缓冲地带，再来一个数据集我可以很从容的包容你进行分类不至于分错类别。

下面讲下最大间隔的概念，如上图，假如存在一条图中的决策边界，A为边界上的某一点，那么连接原点可以作出通过A点的一个向量uu找到一个垂直于决策边界的法向量w，那么决策边界与虚线的距离AB可以用向量w与向量u的内积来表示，我们知道，w.u即为向量u在w上的投影的长度，那么我现在规定一个距离C即为间隔.

决策公式

翻译成数学语言:
给定一训练样本,假设样本的特征矩阵为X,类别标签为y,取值为-1或者1,分布代表正样本和负样本.SVM为这些样本寻找一个最优分类超平面,其方程为:
$W^{T}*X+b=0$
对于正样本有:
$W^{T}*X+b>=0$
对于负样本有:
$W^{T}*X+b<=0$
统一方程为:
$y_{i}(W^{T}*X+b)>=0$
其中
$\gamma = y_{i}(W^{T}*X+b)$ 称为函数距离

目标函数

函数距离

$\widetilde{\gamma}= y_{i}(W^{T}*X+b)$

几何距离
$\gamma=\frac {|W^{T}*X+b|}{||\omega ||}$

目标:
确定超平面,因此可以把无关的变量固定下来:
$\gamma =\frac {\widetilde{\gamma}}{||\omega ||}$

固定的方式有两种:

固定 $||\omega ||$
固定 $\widetilde{\gamma}$
为了方便推导和优化,选择第二种,令 $\widetilde{\gamma}=1$ ,则目标函数化为:
$max \frac{1}{||\omega||}$
s.t. $y_{i}*(W^{T} x^i+b)>=1 , i = 1,2,...,n$

损失函数

那么几何间隔最大问题转化为:
$max \frac{2}{||\omega||}$
等价于
$min \frac{||\omega||}{2}$
等价于
$min \frac{||\omega||^{2}}{2}$
上式称为约束最优化问题的原始问题
构造拉格朗日函数:
$L(\alpha,\omega,b)=\frac{1}{2}||\omega||^{2}-\sum_{i=1}^{n}\alpha*[y_{i}*(W^{T} x^i+b)-1]$

令 $\frac {\partial L}{\partial \omega}=0$
可以得到:
$\omega=\sum_{i=1}^{n}\alpha_{i}*x_{i}*y_{i}$
令
$\frac {\partial L}{\partial b}=0$
可以得到:
$\sum_{i=1}^{n}\alpha_{i}*y_{i}=0$
将这两个值分别带入到拉格朗日函数L中，得
$L(\alpha,\omega,b)=\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}*\sum_{i=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x^Tx_{j}$
然后解得一个最优解α之后分别可以求出对应的w和b.