手撕SVM——硬间隔

原理

手撕SVM——硬间隔

上面这幅图，存在两类线性可分的数据，在两个数据集之间存在无数个可进行分割的超平面，而SVM的目的是找到几何间隔最大的超平面，且这个超平面是唯一存在的。如上图的超平面W^TX + b = 0，就是上图数据集的几何间隔最大超平面。

推导过程

假设给定一个特征空间上的训练数据集T = {(x₁,y₁),(x₂,y₂),…(x_n,y_n)}。
其中x_i $\in$ Rⁿ，y_i $\in$ {-1，+1}。
设超平面为 $\omega$ ^Tx + b = 0 ，则y_i = $\omega$ $\times$ x_i+ b
$y_i =\begin{cases} +1 &y_i > 0 \\ -1 & y_i < 0 \\ \end{cases}$

所有样本点到超平面的距离叫做几何间隔 $\gamma$ _i，令最小的 $\gamma$ _i = $\gamma$ 。
$\gamma$ _i = $\frac{|ω×x_i+b |}{ ||ω|| }$ = $\frac{y_i(ω×x_i+b )}{ ||ω|| }$

$\gamma$ = $\min_{i = 1,2...n}$ { $\gamma$ _i} = $\min_{x_i}$ $\frac{y_i(ω×x_i+b )}{ ||ω|| }$
所以可得：
$\gamma$ _i = $\frac{y_i(w×x_i+b )}{ ||ω|| }$ $\geq$ $\gamma$ $\Rightarrow$ $\frac{y_i(w×x_i+b )}{ ||ω||γ }$ $\geq$ 1
令ω = $\frac{ ω }{ ||ω||γ }$ ，可得
y_i(ω $\times$ x_i+b ) $\geq$ 1

根据以上定义可得最初的约束条件：
$原始约束=\begin{cases} \max_{ω,b} \gamma \\ y_i(ω×x_i+b )≥1 \end{cases}$

又因为最大化 $\gamma$ ，相当于要最大化 $\frac{ 1 }{ ||ω|| }$ ，即最小化 $\frac{ 1 }{2 }$ ||ω||²。此时约束条件进行下面的改变：
$不等式约束=\begin{cases} min_{ω,b} \frac{ 1 }{2 }||ω||^2 \\ y_i(ω×x_i+b )≥1 \end{cases}\tag{1}$

根据式子（1），通过拉格朗日乘子法可得：

L(w,b, $\alpha$ ) = $\frac{ 1 }{2 }$ ||ω||² - $\sum_{i=0}^n$ $\alpha$ _i( y_i (ω $\times$ x_i + b ) -1 )
因为要满足KKT条件，所以y_i (ω $\times$ x_i + b ) -1 $\geq$ 0、 $\alpha$ _i( y_i (ω $\times$ x_i + b ) -1 ) = 0、其中 $\alpha$ _i为拉格朗日乘子，且 $\alpha$ _i ≥ 0.
所以约束条件变为：
$对偶问题=\begin{cases} \min_{ω,b} \max_{\alpha} L(w,b,\alpha) = \frac{ 1 }{2 }||ω||^2 -\sum_{i=0}^n\alpha_i（y_i（ω \times x_i + b）- 1）\\ \alpha_i ≥ 0.\\ y_i（ω \times x_i + b）≥ 0\\ \alpha_i( y_i (ω \times x_i + b ) -1 ) = 0 \end{cases}\tag{2}$

因为满足KKT条件的凸二次规划问题，所以满足强对偶关系，即
$\min_{ω,b} \max_{\alpha} L(ω,b,\alpha) = \max_{\alpha} \min_{ω,b} L(ω,b,\alpha) \tag{3}$

下面对L的ω求偏导：
$\frac{\partial L}{\partial ω} = ω - \sum_{i=0}^n \alpha_i y_i x_i = 0 \tag{4}$
下面再对L的b求偏导：
$\frac{\partial L}{\partial b} = -( \sum_{i=0}^n \alpha_i y_i) = 0 \tag{5}$

将公式（4)（5）带入 $min_{ω,b}$ L(ω,b, $\alpha$ )可得：

$min_{ω,b}$ L(ω,b, $\alpha$ ) = $\frac{ 1 }{2 }$ $\sum_{i=0}^n$ $\sum_{j=0}^n$ $\alpha$ _i $\alpha$ _j y_i y_j x_i^Tx_j + $\sum_{i=0}^n$ $\alpha$ _i - $\sum_{i=0}^n$ $\sum_{j=0}^n$ $\alpha$ _i $\alpha$ _j y_i y_j x_i^Tx_j = - $\frac{ 1 }{2 }$ $\sum_{i=0}^n$ $\sum_{j=0}^n$ $\alpha$ _i $\alpha$ _j y_i y_j x_i^Tx_j + $\sum_{i=0}^n$ $\alpha$ _i
即：
$min_{ω,b} L(ω,b,\alpha) = -\frac{ 1 }{2 } \sum_{i=0}^n \sum_{j=0}^n \alpha_i \alpha_j y_i y_j x_i^Tx_j + \sum_{i=0}^n\alpha_i \tag{6}$

由式（6）可知：
$\max_{\alpha}$ $min_{ω,b} L(ω,b,\alpha)$ = $\max_{\alpha}$ (- $\frac{ 1 }{2 }$ $\sum_{i=0}^n$ $\sum_{j=0}^n$ $\alpha$ _i $\alpha$ _j y_i y_j x_i^Tx_j + $\sum_{i=0}^n$ $\alpha$ _i )
通过添加负号，可将 $\max_{\alpha}$ 转为 $\min_{\alpha}$ ，即：
$\min_{\alpha}$ P( $\alpha$ ) = $\frac{ 1 }{2 }$ $\sum_{i=0}^n$ $\sum_{j=0}^n$ $\alpha$ _i $\alpha$ _j y_i y_j x_i^Tx_j - $\sum_{i=0}^n$ $\alpha$ _i

然后通过序列最小优化（SMO）算法可求出使得P最小的 $\alpha$ ，记为 $\alpha$ *。（这里先省略推导过程，以后再写）

由式（4）可得最优解
$ω* = \sum_{i=0}^n \alpha^*_i y_i x_i \tag{7}$

$\exists$ (x_k,y_k) ，使得 1 - y_k(ω^Tx_k + b) = 0,
则
$b* = y_k - ω*^Tx_k = y_k - \sum_{i=0}^n \alpha^*_i y_i x_i^Tx_k \tag{8}$

所以，最后的超平面是ω*^T x + b* = 0