回顾线性分类

前提:样本线性可分
线性分类器:h(x)=sign(wTx)h(x)=sign({ w }^{ T }x)
寻找线性分类器的算法:PLA/pocket
Q:若样本线性可分,那么可以将样本完美分类的直线(超平面)边界通常(肯定)不止一条,哪一条才是最好的呢?
A:边界离样本点的最小距离越大越好
机器学习技法笔记-线性支持向量机
直觉告诉我们上图中显然第三个线性分类器最好,非要解释呢?
图一中,假设我们有一个样本与靠近分界线的那个x非常接近,但是它在分界线的下侧,由于是它被分类为o,这显然不太合理。而图三中,因为各个样本点都离分类界线有一定的距离,输入数据稍微有点误差,只要误差不是太大是偏不到界线的那一边的。可见图三对数据中的误差容忍度最高。

Large-Margin Separating Hyperplane

问题模型:
margin(w)最大化 \quad margin(w)
Wyn=sign(wTxn)ynwTxn>0满足约束 \quad 以W为系数的超平面能将所有样本点正确分类 即y_{n}=sign(w^{T}x_{n}),即y_{n}w^{T}x_{n}>0
margin=mindistance(xn,w)margin=样本点到分类超平面距离的最小值 即min\quad distance(x_{n},w)
写清爽点:
object:maximizemargin(w)object: maximize \quad margin(w)
s.t.:everyynwTxn>0s.t.:\quad every \quad y_{n}w^{T}x_{n}>0
margin(w)=mindistance(wn,w)margin(w)=min \quad distance(w_{n},w)

样本点到超平面的距离公式

因为在此问题中W和b用途有不同,不再把b写成w0w_{0}
于是要找的超平面就是WTX+b=0W^{T}X+b=0
distance(x,b,w)=1wwTx+bdistance(x,b,w)=\frac { 1 }{ \left\| w \right\| } \left| { w }^{ T }x+b \right|
代入前述模型
object:maximizemargin(w)object: maximize \quad margin(w)
s.t.:everyynwTxn>0s.t.:\quad every \quad y_{n}w^{T}x_{n}>0
margin(w)=min1wwTx+bmargin(w)=min \quad \frac { 1 }{ \left\| w \right\| } \left| { w }^{ T }x+b \right|
依然无法求解

Margin of Special Separating Hyperplane

我们知道wTx+b=0w^{T}x+b=03wTx+3b=03w^{T}x+3b=0其实是同一个平面
对于任意一个平面wTx+b=0w^{T}x+b=0
假设到该平面距离最小的样本点为xix_{i}
wTxi+b=L\left| { w }^{ T }x_{i}+b \right|=L
yn(wTxn+b)=L{ y }_{ n }({ w }^{ T }{ x }_{ n }+b)=L
两边同时乘以1/L1/L
yn(wTdixn+bdi)=1{ y }_{ n }(\frac { { w }^{ T } }{ { d }_{ i } } { x }_{ n }+\frac { b }{ { d }_{ i } } )=1
事实上wTdixn+bdi=0\frac { { w }^{ T } }{ { d }_{ i } } { x }_{ n }+\frac { b }{ { d }_{ i } }=0wTx+b=0w^{T}x+b=0是同一个平面
因此,任意一个平面,经过系数的缩放,可以使得到平面距离最小的样本点满足
yi(wTxi+b)=0y_{i}(w^{T}x_{i}+b)=0
我们接下来便只考虑这些special的平面(考虑了这些special的平面就是考虑了所有的平面)
margin(w)=1wmargin(w)=\frac { 1 }{ \left\| w \right\| }
于是问题模型就可以写得更清爽了:
object:maximize1wobject: maximize \quad \frac { 1 }{ \left\| w \right\| }
s.t.:minyn(wTxn+b)=1s.t.:\quad min \quad y_{n}(w^{T}x_{n}+b)=1

Standard Large-Margin Hyperplane Problem

将约束条件 minyn(wTxn+b)=1min \quad y_{n}(w^{T}x_{n}+b)=1 放松为yn(wTxn+b)1y_{n}(w^{T}x_{n}+b)\ge1
(目标仍然是 maximize1wmaximize \quad \frac { 1 }{ \left\| w \right\| })
这二者不是等价的,后者是前者的必要条件,因为后者并不要求存在一个xix_{i}能取到等号
但是,后者所对应最优化问题的最优解却一定是前者的最优解,证明如下:
假设后者最优解为(b,w)(b,w),其中最小的yn(wTxn+b)=M>1y_{n}(w^{T}x_{n}+b)=M>1
将系数除以M,得到一个更优解(wM,bM)(\frac { w }{ M } ,\frac { b }{ M } ),产生了矛盾
也就是说,在约束条件yn(wTxn+b)1y_{n}(w^{T}x_{n}+b)\ge1下求出的最优解一定会满足minyn(wTxn+b)=1min \quad y_{n}(w^{T}x_{n}+b)=1

最后再对最优化问题模型做一些等价变形:最大化变成最小化,去掉求模时的根号
问题模型转化成:
minb,w12wTw\underset { b,w }{ min } \quad \frac { 1 }{ 2 } { w }^{ T }w
s.t.yn(wTxn+b)1forallns.t.\quad { y }_{ n }({ w }^{ T }{ x }_{ n }+b)\ge 1\quad for\quad all\quad n\quad

Quadratic Programming

经过一系列推导,问题模型实际上转化成了一个二次规划模型。
二次规划模型:
1.目标函数是一个二次函数
2.约束全都是线性的

支持向量机 Support Vector Machine (SVM)

实际上,最后求得的超平面只与离它最近的几个样本有关,这些样本点称为支持向量

相关文章:

  • 2021-12-22
  • 2021-04-04
  • 2021-10-22
  • 2021-12-08
  • 2021-06-13
  • 2021-08-29
  • 2021-08-19
  • 2021-04-28
猜你喜欢
  • 2021-05-17
  • 2021-12-12
  • 2021-09-12
  • 2021-10-14
  • 2021-11-19
  • 2021-09-29
  • 2021-08-24
相关资源
相似解决方案