SVM
最大间隔

让最大间隔作为衡量一条决策边界的好还的原因是,如果一条决策边界有最大间隔,那么这条决策边界就具有很好的鲁棒性,相当于增加了一个缓冲地带,再来一个数据集我可以很从容的包容你进行分类不至于分错类别。
下面讲下最大间隔的概念,如上图,假如存在一条图中的决策边界,A为边界上的某一点,那么连接原点可以作出通过A点的一个向量uu找到一个垂直于决策边界的法向量w,那么决策边界与虚线的距离AB可以用向量w与向量u的内积来表示,我们知道,w.u即为向量u在w上的投影的长度,那么我现在规定一个距离C即为间隔.
决策公式
翻译成数学语言:
给定一训练样本,假设样本的特征矩阵为X,类别标签为y,取值为-1或者1,分布代表正样本和负样本.SVM为这些样本寻找一个最优分类超平面,其方程为:
WT∗X+b=0
对于正样本有:
WT∗X+b>=0
对于负样本有:
WT∗X+b<=0
统一方程为:
yi(WT∗X+b)>=0
其中
γ=yi(WT∗X+b)称为函数距离
目标函数
γ=yi(WT∗X+b)
- 几何距离
γ=∣∣ω∣∣∣WT∗X+b∣
目标:
确定超平面,因此可以把无关的变量固定下来:
γ=∣∣ω∣∣γ
固定的方式有两种:
- 固定∣∣ω∣∣
- 固定γ
为了方便推导和优化,选择第二种,令γ=1,则目标函数化为:
max∣∣ω∣∣1
s.t. yi∗(WTxi+b)>=1,i=1,2,...,n
损失函数
那么几何间隔最大问题转化为:
max∣∣ω∣∣2
等价于
min2∣∣ω∣∣
等价于
min2∣∣ω∣∣2
上式称为约束最优化问题的原始问题
构造拉格朗日函数:
L(α,ω,b)=21∣∣ω∣∣2−i=1∑nα∗[yi∗(WTxi+b)−1]
令∂ω∂L=0
可以得到:
ω=i=1∑nαi∗xi∗yi
令
∂b∂L=0
可以得到:
i=1∑nαi∗yi=0
将这两个值分别带入到拉格朗日函数L中,得
L(α,ω,b)=i=1∑nαi−21∗i=1∑nαiαjyiyjxTxj
然后解得一个最优解α之后分别可以求出对应的w和b.