SVM算法推导(先以二维平面点为例)

待解决问题:

设有个样本集合X={(x11,x21),(x12,x22),(x13,x23),...,(x1n,x2n)}x1i,x2iRX=\{(x_{11},x_{21}),(x_{12},x_{22}),(x_{13},x_{23}),...,(x_{1n},x_{2n})\} \kern{1em} x_{1i},x_{2i} \isin R,XX样本集合的标签为集合Y={y1,y2,y3,...,yn}yi{1,1}Y=\{y_1,y_2,y_3,...,y_n\} \kern{1em} y_i \isin \{-1,1\},则我们需要找到一条直线w1x1i+w2x2i+b=0w_1x_{1i}+w_2x_{2i}+b=0将样本集合按照YY的标记分为两类(-1和1各一类),如下图所示:

分割线为: w1x1+w2x2+b=0w_1x_{1}+w_2x_{2}+b=0

红色正样本边界且与分割先平行的直线: w1x1+w2x2+b=1w_1x_{1}+w_2x_{2}+b=1
绿色负样本边界且与分割先平行的直线: w1x1+w2x2+b=1w_1x_{1}+w_2x_{2}+b=-1
所有正样本满足: w1x1+w2x2+b1w_1x_{1}+w_2x_{2}+b\ge1
所有负样本满足: w1x1+w2x2+b1w_1x_{1}+w_2x_{2}+b\le-1
SVM分类算法推导

最大间隙
如下图可以看出,要将样本一分为二的直线有无数多个,凭直觉来看,应该是蓝色的线条分割更为合理,如果有新的测试数据输入,则被准确分割的概率更大,而橘色和绿色的虚线则准确率不会很高
SVM分类算法推导

那么什么样的直线才是最优的直线呢,试想一下,如果将两种样本分离得越远(也就是便捷的间隙越大)则划分就是最优的,从而也就将问题转换为正负样本集合离分割先最近的点到分界线的距离越远越好,如图:

SVM分类算法推导

从上图中d1,d2为正负样本的边界到绿色直线的距离,r1,r2为正负样本到蓝色直线的距离,容易看出d1+d2 < r1+r2的,因此蓝色直线的划分要比绿色直线的划分更为合理.

如何找到最合理的直线
这里我们假定已经找到直线w1x+w2y+b=0w_1x+w_2y+b=0,那么正负样本到分割先的距离都应该为(根据平行线间距离公式可得):
r1=10w12+w22=1w12+w22r2=10w12+w22=1w12+w22 r_1=\dfrac{\begin{vmatrix}1-0\end{vmatrix}}{\sqrt{\smash[b]{w_1^2+w_2^2}}}= \dfrac{1}{\sqrt{\smash[b]{w_1^2+w_2^2}}}\kern{4em} r_2=\dfrac{\begin{vmatrix}-1-0\end{vmatrix}}{\sqrt{\smash[b]{w_1^2+w_2^2}}}= \dfrac{1}{\sqrt{\smash[b]{w_1^2+w_2^2}}}\kern{4em}
则,两个分类的边界间隙则为:
r=r1+r2=2w12+w22 r=r_1+r_2=\dfrac{2}{\sqrt{\smash[b]{w_1^2+w_2^2}}}\kern{4em}
那么问题就转换为求解:
max2w12+w22 max \dfrac{2}{\sqrt{\smash[b]{w_1^2+w_2^2}}}\kern{4em}\\
由于w12+w220,w120,w220w_1^2+w_2^2\ge0,w_1^2\ge0,w_2^2\ge0因此上述问题也就是求解:
min12(w12+w22) min\dfrac{1}{2}(w_1^2+w_2^2)
由于求出的解需要让所有的正样本满足:w1x1+w2x2+b1w_1x_{1}+w_2x_{2}+b\ge1,且负样本都满足:w1x1+w2x2+b1w_1x_{1}+w_2x_{2}+b\le-1,那么我们可以将正负样本需要满足的不等式左右同时乘以他们的标签yiy_i,则所有的样本都需要满足yi(w1x1i+w2x2i+b)1y_i(w_1x_{1i}+w_2x_{2i}+b)\ge1,则问题转换为:
min12(w12+w22)s.t.yi(w1x1i+w2x2i+b)1i{1,2,3,...,n} min\dfrac{1}{2}(w_1^2+w_2^2)\\ s.t. \kern{1em} y_i(w_1x_{1i}+w_2x_{2i}+b)\ge1 \kern{1em} i \isin \{1,2,3,...,n\}
也即:
min12(w12+w22)s.t.1yi(w1x1i+w2x2i+b)0i{1,2,3,...,n} min\dfrac{1}{2}(w_1^2+w_2^2)\\ s.t. \kern{1em} 1-y_i(w_1x_{1i}+w_2x_{2i}+b)\le0 \kern{1em} i \isin \{1,2,3,...,n\}
注意:如果又n个样本,上述求解问题中的约束条件就应该有n个,也就是每组(x1i,x2i)(x_{1i},x_{2i})都会构成一个约束条件
则,通过拉格朗日乘数法进行求解,对每个约束条件添加松弛变量αi\alpha_i,乘子ηi\eta_i写出拉格朗日函数:
L(w1,w2,b,αi,ηi)=12(w12+w22)+i=1nηi[1yi(w1x1i+w2i+b)+αi2] L(w_1,w_2,b,\alpha_i,\eta_i)=\dfrac{1}{2}(w_1^2+w_2^2) + \sum_{i=1}^n\eta_i[1-y_i(w_1x_{1i}+w_{2i}+b)+\alpha_i^2]
w1,w2,b,αi,ηiw_1,w_2,b,\alpha_i,\eta_i分别求偏导数,并在其为0的时候为极值点,得到一下方程组:
{ΔLΔw1=w1i=1nx1iyiηi=0ΔLΔw2=w2i=1nx2iyiηi=0ΔLΔb=i=1nyiηi=0ΔLΔαi=2ηiαi=0ΔLΔηi=yi(w1x1i+w2i+b)+αi2=0 \begin{cases} \dfrac{\varDelta L}{\varDelta w_1}=w_1-\sum_{i=1}^nx_{1i}y_i\eta_i=0\\ \\ \dfrac{\varDelta L}{\varDelta w_2}=w_2-\sum_{i=1}^nx_{2i}y_i\eta_i=0\\ \\ \dfrac{\varDelta L}{\varDelta b}=\sum_{i=1}^ny_i\eta_i=0\\ \\ \dfrac{\varDelta L}{\varDelta \alpha_i}=2\eta_i\alpha_i=0\\ \\ \dfrac{\varDelta L}{\varDelta \eta_i}=y_i(w_1x_{1i}+w_{2i}+b)+\alpha_i^2=0\\ \end{cases}
求解上述方程组,即可得到最优的w1,w2,bw_1,w_2,b

相关文章: