SVM

  • 最大间隔
  • 决策公式
  • 目标函数
  • 损失函数

最大间隔

SVM损失函数
让最大间隔作为衡量一条决策边界的好还的原因是,如果一条决策边界有最大间隔,那么这条决策边界就具有很好的鲁棒性,相当于增加了一个缓冲地带,再来一个数据集我可以很从容的包容你进行分类不至于分错类别。

下面讲下最大间隔的概念,如上图,假如存在一条图中的决策边界,A为边界上的某一点,那么连接原点可以作出通过A点的一个向量uu找到一个垂直于决策边界的法向量w,那么决策边界与虚线的距离AB可以用向量w与向量u的内积来表示,我们知道,w.u即为向量u在w上的投影的长度,那么我现在规定一个距离C即为间隔.

决策公式

翻译成数学语言:
给定一训练样本,假设样本的特征矩阵为X,类别标签为y,取值为-1或者1,分布代表正样本和负样本.SVM为这些样本寻找一个最优分类超平面,其方程为:
WTX+b=0W^{T}*X+b=0
对于正样本有:
WTX+b>=0W^{T}*X+b>=0
对于负样本有:
WTX+b<=0W^{T}*X+b<=0
统一方程为:
yi(WTX+b)>=0y_{i}(W^{T}*X+b)>=0
其中
γ=yi(WTX+b)\gamma = y_{i}(W^{T}*X+b)称为函数距离

目标函数

  • 函数距离

γ~=yi(WTX+b)\widetilde{\gamma}= y_{i}(W^{T}*X+b)

  • 几何距离
    γ=WTX+bω\gamma=\frac {|W^{T}*X+b|}{||\omega ||}

目标:
确定超平面,因此可以把无关的变量固定下来:
γ=γ~ω\gamma =\frac {\widetilde{\gamma}}{||\omega ||}

固定的方式有两种:

  • 固定ω||\omega ||
  • 固定γ~\widetilde{\gamma}
    为了方便推导和优化,选择第二种,令γ~=1\widetilde{\gamma}=1,则目标函数化为:
    max1ωmax \frac{1}{||\omega||}
    s.t. yi(WTxi+b)>=1,i=1,2,...,n y_{i}*(W^{T} x^i+b)>=1 , i = 1,2,...,n

损失函数

那么几何间隔最大问题转化为:
max2ωmax \frac{2}{||\omega||}
等价于
minω2min \frac{||\omega||}{2}
等价于
minω22min \frac{||\omega||^{2}}{2}
上式称为约束最优化问题的原始问题
构造拉格朗日函数:
L(α,ω,b)=12ω2i=1nα[yi(WTxi+b)1]L(\alpha,\omega,b)=\frac{1}{2}||\omega||^{2}-\sum_{i=1}^{n}\alpha*[y_{i}*(W^{T} x^i+b)-1]

Lω=0\frac {\partial L}{\partial \omega}=0
可以得到:
ω=i=1nαixiyi\omega=\sum_{i=1}^{n}\alpha_{i}*x_{i}*y_{i}

Lb=0\frac {\partial L}{\partial b}=0
可以得到:
i=1nαiyi=0\sum_{i=1}^{n}\alpha_{i}*y_{i}=0
将这两个值分别带入到拉格朗日函数L中,得
L(α,ω,b)=i=1nαi12i=1nαiαjyiyjxTxjL(\alpha,\omega,b)=\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}*\sum_{i=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x^Tx_{j}
然后解得一个最优解α之后分别可以求出对应的w和b.

相关文章: