机器学习面试知识点总结（三）——SVM

《百面机器学习》第三章是经典算法，第一个经典算法就是SVM。但是书中对SVM的讲解比较简略，而李航老师的《统计学习方法》拿出非常大的篇幅对SVM进行详细讲解，所以本篇先参考《统计学习方法》复习下SVM相关知识点，再看下《百面》中涉及SVM的面试题。

SVM

（此部分主要参考李航老师的《统计学习方法》）

支持向量机（support vector machines，SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题。

支持向量机按模型复杂程度可以分为线性可分支持向量机（linear support vector machine in linearly separable case）、线性支持向量机（linear support vector machine）、非线性支持向量机（non-linear support vector machine）。

当训练数据线性可分时，通过硬间隔最大化学习一个线性的分类器；当训练数据近似线性可分时，通过软间隔最大化学习一个线性分类器；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

1. 线性可分支持向量机

定义

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
$w^*\cdot x + b^* = 0$
以及相应的分类决策函数
$f(x)=sign(w^*\cdot x + b^*)$
称为线性可分支持向量机。

几何间隔和函数间隔

几何间隔的定义

几何间隔一般是实例点到超平面的带符号的距离，当样本点被超平面正确分类时就是实例点到超平面的距离。
对于给定的训练数据集 $T$ 和超平面( $w,b$ )，定义超平面( $w,b$ )关于样本点( $x_i,y_i$ )的几何间隔为
$\gamma_i = y_i(\frac w {\lVert w \rVert} \cdot x + \frac b {\lVert w \rVert})$
定义超平面( $w,b$ )关于训练数据集 $T$ 的几何间隔为超平面( $w,b$ )关于 $T$ 中所有样本点( $x_i, y_i$ )的几何间隔的最小值，即
$\gamma = \min_{i=1,...,N} \gamma_i$

几何间隔的推导过程

函数间隔的定义

对于给定的训练数据集 $T$ 和超平面( $w,b$ )，定义超平面( $w,b$ )关于样本点( $x_i,y_i$ )的函数间隔为
$\hat \gamma_i = y_i(w\cdot x_i + b)$

定义超平面( $w,b$ )关于训练数据集 $T$ 的函数间隔为超平面( $w,b$ )关于 $T$ 中所有样本点( $x_i, y_i$ )的函数间隔的最小值，即
$\hat \gamma = \min_{i=1,...,N} \hat \gamma_i$
函数间隔与几何间隔有以下关系：
$\gamma_i = \frac{\hat \gamma_i}{\lVert w \rVert}$ $\gamma=\frac{\hat \gamma}{\lVert w \rVert}$

间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，对线性可分的训练数据集而言，线性可分分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的。

间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。

最大间隔分离超平面

考虑如何求得一个几何间隔最大的分离超平面，即最大间隔分离超平面，具体的，这个问题可以表示为下面的约束最优化问题：
$\max_{w,b} \quad \gamma$ $s.t. \quad y_i(\frac w {\lVert w \rVert} \cdot x_i+\frac b {\lVert w \rVert}) \geqslant \gamma, \quad i=1,2,...,N$
即我们希望最大化超平面 $(w,b)$ 关于训练数据集的几何间隔 $\gamma$ ，约束条件表示的是超平面( $w,b$ )关于每个训练样本点的几何间隔至少是 $\gamma$ 。

上述条件式左右同乘 $\lVert w \rVert$ ，
$\max_{w,b} \frac{\hat\gamma}{\lVert w \rVert}$ $s.t. \quad y_i(w \cdot x_i + b) \geqslant \hat \gamma,\quad i=1,2,...,N$
可以看出函数间隔 $\hat \gamma$ 并不影响最优化问题的解，而且，最大化 $\frac 1 {\lVert w \rVert}$ 和最小化 $\frac 1 2 \lVert w \rVert^2$ 是等价的，所以最优化问题变为：
$\min_{w,b} \frac 1 2 \lVert w \rVert^2$ $s.t. \quad y_i(w\cdot x_i + b)-1\geqslant 0,\quad i=1,2,...,N$
这样做的意义是把之前的优化问题转化为凸优化问题进行求解。

所谓凸优化问题，是指约束最优化问题
$\min_w \quad f(w)$ $s.t. \quad g_i(w) \leqslant 0, \quad i=1,2,...,k$ $\qquad h_i(w)=0,\quad i=1,2,..,l$
其中，目标函数 $f(w)$ 和约束函数 $g_i(w)$ 都是 $R^n$ 上的连续可微的凸函数，约束函数 $h_i(w)$ 是 $R^n$ 上的仿射函数。
当目标函数 $f(w)$ 是二次函数且约束函数 $g_i(w)$ 是仿射函数时，凸最优化问题成为凸二次规划问题。

综上，就有下面的线性可分支持向量机的学习算法——最大间隔法（maximum margin method）。
输入：线性可分训练数据集 $T=\{(x_1,y_1),(x_2, y_2),...,(x_N,y_N)\}$ ，其中， $x_i\in X=\R^n,y_i\in Y=\{-1,+1\},i=1,2,...,N;$
输出：最大间隔分离超平面和分类决策函数。
(1)构造并求解约束最优化问题：
$\min_{w,b} \frac 1 2 \lVert w \rVert^2$ $s.t. \quad y_i(w\cdot x_i + b)-1 \geqslant 0, \quad i=1,2,...,N$
求得最优解 $w^*, b^*$ .
(2)由此得到分离超平面：
$w^* \cdot x + b^* = 0$
分离决策函数
$f(x) = sign(w^*\cdot x+b^*)$

支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分列超平面距离最近的样本点的实例成为支持向量（support vector），支持向量是使约束条件式等号成立的点，即
$y_i(w\cdot x_i+b)-1=0$
对 $y_i=+1$ 的正例点，支持向量在超平面
$H_1:(w \cdot x_i +b )=1$ 上，对 $y_i=-1$ 的负例点，支持向量在超平面 $H_2:w\cdot x +b=-1$ 上。
$H_1与H_2$ 之间形成一条长带，分离超平面与它们平行且位于它们中央。 $H_1与H_2$ 之间的距离称为间隔（margin）。间隔依赖于分离超平面的法向量 $w$ ，等于 $\frac 2 {\lVert w \rVert}$ 。 $H_1和H_2$ 称为间隔边界。

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。

学习的对偶算法

应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解，这样做的优点，一是对偶问题往往更容易求解；二是自然引入核函数，进而推广到非线性分类问题。

首先，构建拉格朗日函数：
$L(w,b,\alpha)=\frac 1 2 {\lVert w \rVert}^2 - \sum^N_{i=1}\alpha_i y_i(w\cdot x_i+b)+\sum_{i=1}^N \alpha_i$
其中， $\alpha=(\alpha_1, \alpha_2,...,\alpha_N)^T$ 为拉格朗日乘子向量。
根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max_\alpha \min_{w,b}L(w,b,\alpha)$
先求极小将求得的 $w,b$ 带入式子，得到等价的对偶最优化问题：
$\min_\alpha \quad\frac 1 2 \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)-\sum_{i=1}^N \alpha_i$ $\kern-8ems.t. \quad \sum_{i=1}^N \alpha_iy_i=0$ $\kern-1em \alpha_i \geqslant 0, i=1,2,...,N$
利用KKT条件便可求出原始最优化问题的解 $w^*,b^*$ ，推导过程不展开写了。

线性可分支持向量机学习算法

输入：线性可分训练集 $T=\{(x_1, y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in X=\R^n,y_i \in Y=\{-1,1\}$ ；
输出：分离超平面和分类决策函数。
(1)构造并求解约束最优化问题
$\min_\alpha \quad \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$ $\kern-8ems.t. \quad \sum_{i=1}^N \alpha_iy_i=0$ $\kern-1em \alpha_i \geqslant 0, i=1,2,...,N$
求得最优解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 。
(2)计算
$w^*=\sum_{i=1}^N\alpha_iy_ix_i$
并选择 $\alpha^*$ 的一个正分量 $\alpha_j^*>0$ ，计算
$b^* = y_i-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$
(3)求得分离超平面
$w^*\cdot x+b^*=0$
分离决策函数： $f(x)=sign(w^*\cdot x+b^*)$

将训练集中对应于 $\alpha_j^*>0$ 的样本点 $(x_i,y_i)$ 的实例称为支持向量。

以上就是硬间隔最大化算法。但是现实问题中，训练数据往往线性不可分，即在样本中出现噪声或特异点，需要更一般的学习算法。

2. 线性支持向量机与软间隔最大化

线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适用的，此时就需要修改硬间隔最大化，使其成为软间隔最大化。

线性支持向量机

现实问题中训练数据集往往存在特异点，如果将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的，我们就可以用以下方法解决问题。

我们对每个样本点 $(x_i,y_i)$ 引进一个松弛变量 $\xi_i\geqslant0$ ，使函数间隔加上松弛变量大于等于1。约束条件变为
$y_i(w\cdot x_i +b)\geqslant1-\xi_i$ 目标函数变为
$\frac12\lVert w \rVert^2+C\sum_{i=1}^N\xi_i$ C>0称为惩罚参数，C值大对误分类的惩罚增大，C值小对误分类的惩罚减小。该目标函数的解释为使 $\frac12 \lVert w \rVert^2$ 尽量小即距离尽量大，同时使误分类点的个数尽量小。（C大更易过拟合）

线性不可分的线性支持向量机的学习问题变成如下的凸二次规划问题（原始问题）：
$\min \quad \frac12 \lVert w \rVert^2+C\sum_{i=1}^N\xi_i$ $\kern2ems.t. \quad y_i(w\cdot x_i+b)\geqslant1-\xi_i,\quad i=1,2,...,N$ $\kern-2em\xi_i \geqslant0, \quad i=1,2,...,N$

学习的对偶算法

原始问题的对偶问题是
$\kern 2em\min \quad \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i \alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$ $\kern -8ems.t. \quad \sum_{i=1}^N\alpha_i y_i = 0$ $\kern1em0\leqslant\alpha_i \leqslant C, \quad i=1,2,...,N$
线性支持向量机学习算法
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i\in X=\R_n,y_i \in Y=\{-1,1\}, i=1,2,...,N$
输出：分离超平面和分类决策函数
(1)选择惩罚参数 $C>0$ ，构造并求解凸二次规划问题
$\kern 2em\min \quad \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i \alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$ $\kern -8ems.t. \quad \sum_{i=1}^N\alpha_i y_i = 0$ $\kern1em0\leqslant\alpha_i \leqslant C, \quad i=1,2,...,N$ 求得最优解 $\alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$ 。
(2)计算 $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
选择 $\alpha^*$ 的一个分量 $\alpha^*_j$ 适合条件 $0<\alpha^*_j<C$ ，计算
$b^*_j = y_j-\sum_{i=1}^Ny_i\alpha^*_j(x_i\cdot x_j)$
(3)求得分离超平面
$w^*\cdot x+b=0$
分类决策函数
$f(x) = sign(w^*\cdot x +b)$

支持向量

在线性不可分的情况下，将对偶问题的解 $\alpha^*$ 中对应于 $\alpha^*_j>0$ 的样本点 $(x_j,y_j)$ 的实例 $x_i$ 称为支持向量（软间隔的支持向量）。支持向量到间隔边界的距离 $\frac {\xi_i} {\lVert w \rVert}$

软间隔的支持向量 $x_i$ 或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧。若 $\alpha_i<C$ ，则 $\xi_i=0$ ，支持向量 $x_i$ 恰好落在间隔边界上；若 $\alpha^*=C,0<\xi_i<1$ ，则分类正确， $x_i$ 在间隔边界与分离超平面之间；若 $\alpha^*=C,\xi_i=1$ ，则分类正确， $x_i$ 在分离超平面上；若 $\alpha^*=C,\xi_i>1$ ，则分类错误， $x_i$ 在分离超平面误分一侧。

3. 非线性支持向量机与核函数

有时分类问题是非线性的，这时就要使用非线性支持向量机，其主要特点是利用核技巧(kernel trick)。

用线性方法求解非线性分类问题分为两步：

使用一个变换将原空间的数据映射到新空间
在新空间用线性分类学习方法从训练数据中学习分类模型。

核技巧

核函数的定义
设 $X$ 是输入空间（欧氏空间 $\R^n$ 的子集或离散集合），又设 $\Eta$ 为特征空间（希尔伯特空间），如果存在一个从 $X$ 到 $\Eta$ 的映射
$\phi(x):X \rightarrow \Eta$ 使得对所有 $x,z\in X$ ，函数 $K(x,z)$ 满足条件
$K(x,z)=\phi(x)\cdot \phi(z)$ 则称 $K(x,z)$ 为核函数， $\phi(x)$ 为映射函数， $\phi(x)\cdot \phi(z)$ 为内积运算。

核技巧在支持向量机中的应用

我们注意到在线性支持向量机的对偶问题中，无论是目标函数还是决策函数（分离超平面）都只涉及输入实例与实例之间的内积。对偶问题的目标函数中的内积 $x_i\cdot x_j$ 可以用 $K(x_i,y_i)=\phi(x_i)\cdot \phi(x_j)$ 来代替。

当映射函数是非线性函数时，学习到的含有核函数的支持向量机就是非线性分类模型。在实际应用中，往往依赖领域知识直接选择核函数，核函数选择的有效性需要通过实验验证。

常用核函数

线性核
$K(x,z)=x\cdot z$
多项式核函数
$K(x,z)=(x\cdot z+1)^p$
对应的支持向量机是一个p次多项式分类器。分类决策函数成为
$f(x)=sign(\sum_{i=1}^{N_s} \alpha^*_iy_i(x_i\cdot x+1)^p+b^*)$
高斯核函数
$K(x,z)=exp(-\frac{\lVert x-z \rVert^2}{2\sigma^2})$
对应的支持向量机是高斯径向基函数（RBF）分类器，分类决策函数成为
$f(x)=sign(\sum_{i=1}^{N_s}\alpha^*_iy_iexp(-\frac{\lVert x-x_i \rVert^2}{2\sigma^2})+b^*)$
指数核
$K(x,z)=exp(-\frac{\lVert x-z \rVert}{2\sigma^2})$
sigmoid核
$K(x,z)=tanh(\alpha x\cdot z+c)$

当样本的特征很多时，特征的维数很高，这是往往样本线性可分，可考虑用线性核函数的SVM或LR（如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的）。
当样本的数量很多，但特征较少时，可以手动添加一些特征，使样本线性可分，再考虑用线性核函数的SVM或LR。
当样特征维度不高时，样本数量也不多时，考虑用高斯核函数（RBF核函数的一种，指数核函数和拉普拉斯核函数也属于RBF核函数）。

非线性支持向量分类机

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i\in X=\R_n,y_i \in Y=\{-1,1\}, i=1,2,...,N$
输出：分离超平面和分类决策函数
(1)选择适当的核函数 $K(x,z)$ 和适当的参数 $C$ ，构造并求解最优化问题
$\kern 2em\min \quad \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i \alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$ $\kern -8ems.t. \quad \sum_{i=1}^N\alpha_i y_i = 0$ $\kern1em0\leqslant\alpha_i \leqslant C, \quad i=1,2,...,N$ 求得最优解 $\alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T$ 。
(2)计算 $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
选择 $\alpha^*$ 的一个分量 $\alpha^*_j$ 适合条件 $0<\alpha^*_j<C$ ，计算
$b^*_j = y_j-\sum_{i=1}^N\alpha^*_jy_iK(x_i,x_j)$
(3)构造决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha^*_iy_iK(x\cdot x_i)+b^*)$

4. 序列最小化算法

待补充。。。

5. 百面机器学习中的问题

问题1 在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？

问题2 是否存在一组参数使SVM训练误差为0？

仅考虑不带松弛变量的情况
SVM的预测公式
$f(x)=sign(\sum_{i=1}^N\alpha^*_iy_iK(x\cdot x_i)+b^*)$ 假设给定训练集中不存在两个点在同一位置，核函数采用高斯核。
对于任意的i，固定 $\alpha_i=1$ 以及 $b=0$ ，则有
$f(x_j)=\sum_{i=1}^Ny_iexp(-\frac{\lVert x_j-x_i \rVert^2}{2\sigma^2})$ $f(x_j)-y_j=\sum_{i=1,i\not=j}^Ny_iexp(-\frac{\lVert x_j-x_i \rVert^2}{2\sigma^2})$ $\lVert f(x_j)-y_j \rVert\leqslant \sum_{i=1,i\not=j}^Nexp(-\frac{\lVert x_j-x_i \rVert^2}{2\sigma^2})$
由题意知 $\lVert x_j - x_i \rVert \geqslant\epsilon$ ，取 $\sigma=\frac{\epsilon}{\sqrt{logm}}$ ，可将式重写为
$\lVert f(x_j)-y_j \rVert\leqslant \sum_{i=1,i\not=j}^Nexp(-\frac{\lVert x_j-x_i \rVert^2}{2\sigma^2})\leqslant\sum_{i=1.i\not=j}^me^{-logm}=\frac {m-1}m<1$ 所以，对于任意 $x_j$ ，预测结果 $f(x_j)$ 与样本真实标签 $y_j$ 的距离小于1。因此所有样本的类别都被正确预测，训练误差为0。

问题3 训练误差为0的SVM分类器一定存在吗？

问题2找到了一组参数使得SVM分类器的训练误差为0。本问旨在找到一组参数满足训练误差为0，且是SVM模型的一个解。
我们已经得到了一组参数使得当 $y_j=1$ 时， $f(x_j)>0$ 时，而当 $y_j=-1时$ ， $f(x)<0$ 。现在需要找到一组参数满足更强的条件，即 $y_jf(x_j)\geqslant1$ 。
仍固定b=0，将 $y_if(x_i)$ 展开，有
$y_jf(x_j)=y_j\sum_{i=1}^m\alpha_iy_iK(x_i,x_j)=\alpha_jy_jy_jK(x_j,x_j)+\sum_{i=1,i\not=j}^m\alpha_iy_iy_jK(x_i,x_j)$
$\kern8em=\alpha_j+\sum_{i=1,i\not=j}^m\alpha_iy_iy_jK(x_i,x_j)$
可以每个 $\alpha$ 取很大的值，同时 $\sigma$ 取很小的值，使得核映射项非常小，于是 $\alpha_j$ 在上式占主导地位，这样 $y_jf(x_j)>1$ ，满足SVM的解条件。

问题4 加入松弛变量的SVM的训练误差可以为0吗？

使用SMO算法训练的线性分类器并不一定能得到训练误差为0的模型。这是由于我们的优化目标改变了，并不再是使训练误差最小。考虑带松弛变量的SVM模型优化的目标函数所包含的两项： $C\sum_{i=1}^m\xi_i$ 和 $\frac12\lVert w\rVert^2$ ，当我们的参数C选取较小的值时，后一项（正则项）将占据优化的较大比重。这样，一个带有训练误差，但是参数较小的点将成为更优的结果。一个简单的特例是，当C取0时，w也取0即可达到优化目标，但是显然此时我们的训练误差不一定能达到0。

参考链接

支持向量机原理篇
 常用核函数
 机器学习实战
 机器学习问题与解答系列

第三章 经典算法（一）

SVM

1. 线性可分支持向量机

定义

几何间隔和函数间隔

几何间隔的定义

几何间隔的推导过程

函数间隔的定义

间隔最大化

最大间隔分离超平面

支持向量和间隔边界

学习的对偶算法

线性可分支持向量机学习算法

2. 线性支持向量机与软间隔最大化

线性支持向量机

学习的对偶算法

支持向量

3. 非线性支持向量机与核函数

核技巧

核技巧在支持向量机中的应用

非线性支持向量分类机

4. 序列最小化算法

5. 百面机器学习中的问题

参考链接

第三章经典算法（一）