支持向量机SVM通俗导论

作者：July、pluskid、白石。
出处：结构之法算法之道blog。

前言

动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，从5月22日凌晨两点在微博上说我要写了，到此刻真正动笔要写此文，中间竟然隔了近半个月。原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有不少朋友已经写得不错了(见文末参考链接..)，但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。

本文作为Top 10 Algorithms in Data Mining系列第二篇文章，将主要结合支持向量机导论、数据挖掘导论及网友的Free Mind的支持向量机系列而写(于此，还是一篇读书笔记，只是加入了自己的理解，有任何不妥之处，还望海涵)，宏观上整体认识支持向量机的概念和用处，微观上深究部分定理的来龙去脉，证明及原理细节，力求深入浅出 & 通俗易懂。

同时，本文分三层，第一层、了解SVM，第二层、深入SVM，第三层、证明SVM，最后谈谈SVM的应用，以此逐层深入，从而照顾到水平深浅度不同的读者，在保证浅显直白的基础上尽可能深入，还读者一个明明白白透透彻彻的SVM，希望我能做到。还是那句原话，有任何问题，欢迎任何人随时不吝指正 & 赐教，谢谢。

第一层、了解SVM

1.0、什么是支持向量机SVM

在进入第一层之前，你只需了解什么是支持向量机SVM就够了，而要明白什么是SVM，便得从头从什么是数据挖掘说起。

数据挖掘是机器学习、数据库和统计学三者结合的产物，数据挖掘首先要确定挖掘的任务或目的，确定了挖掘任务之后，就要决定使用什么样的挖掘算法，选择了算法之后便可以实施数据挖掘操作，获取有用的信息或模式。
分类作为数据挖掘领域中一项非常重要的任务，目前在商业上应用最多(比如分析型CRM里面的客户分类模型，客户流失模型，客户盈利等等，其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器)，该模型能吧数据库中的数据项映射到给定类别中的摸一个，从而可以用于预测未知类别。
而本文将要介绍的支持向量机SVM算法便是一种分类方法。

所谓支持向量机，顾名思义，分为两个部分了解，一什么是支持向量(简单来说，就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点，下文将具体解释)，二这里的“机”是什么意思。我先来回答第二点：这里的“机（machine,机器）” 便是一个算法。在机器学习领域，常把一些算法看做是一个机器，如分类机(当然，也叫做分类器)，而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习，请参见第一篇)，它广泛的应用于统计分类以及回归分析中。

对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的)，那么，了解到这里便足够了，不需上层。而对于那些喜欢深入研究一个东西的同学，甚至究其本质的，咱们则还有很长的一段路要走，万里长征，咱们开始迈第一步吧(深信你能走完)。

1.1、线性分类

OK，在讲SVM之前，咱们必须先弄清楚一个概念：线性分类器。

这里我们考虑的是一个两类的分类问题，数据点用 0

但即使我已经给出了线性分类器的定义及公式，相信，仍然是有相当一部分读者是不知所谓的超平面(w，b)中w，和b所指是何物的？但本文尽量不留遗漏，以期尽量将有必要了解的技术细节原原本本的和盘托出，如下：

上面已经说过，两类问题的分类通常用一个实值函数f：(R^n 即指n唯平面)按照这样的方式操作：当f(x)>=0，输入想x=(x1，...xn)‘赋给正类，否则赋给负类，考虑当f(x)，x属于X是线性函数的情况，函数可以写为：f(x)=<w，b> b。这个式子的几何解释是，<w，x> b=0所定义的超平面讲输入空间X(各种点)分为两半。也就是说，超平面是维数为n-1的仿射子空间，它将空间分为两部分，这两部分对应输入中两类不同的点，对应着超平面上面的正区域和超平面下面的负区域，当b的值变化时，超平面平行于自身移动，示意图如下(注意体会途中w，b的几何意义，我们实际应用 SVM的过程中，所谓调参数调的就是这两个参数w和b)：

1.2、线性分类的一个例子

OK，来理论可能读者看不懂，咱们来直接举一个例子吧，且举最简单的例子，一个二维平面(一个超平面，在二维空间中的例子就是一条直线)，如下图所示，平面上有两种不同的点，分别用两种不同的颜色表示，一种为红颜色的点，另一种则为蓝严肃的点，红颜色的线表示一个可行的超平面。

从上图中我们可以看出，这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面，而现在的情况是，这个所谓的超平面的的确确便把这两种不同颜色的点分隔开来，换句话说，事实上，是存在这样一个超平面可以把两类数据分隔开来的，比如，在超平面一边的数据点所对应的当然，有些时候（或者说大部分时候）数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲)，这里先从最简单的情形开始推导，就假设数据都是线性可分的，亦即这样的超平面是存在的。更进一步，我们在进行分类的时候，将数据点，则很难办了，分到哪一类都不是(后续会说明此种情况)。

1.3、 functional margin与geometrical margin

从几何直观上来说，由于超平面是用于分隔两类数据的，越接近超平面的点越“难”分隔，因为如果超平面稍微转动一下，它们就有可能跑到另一边去。反之，如果是距离超平面很远的点，例如图中的右上角或者左下角的点，则很容易分辩出其类别。

结合上图，我们直接定义 functional margin 为

对 functional margin 为 γˆ=y(wTx b)=yf(x)的解释：上面直接给出它的定义并没有说明来由，其实这是有来头的。一般来说，我们定义：样例(xi，yi)对应于超平面(w，b)的函数的间隔量为：γˆ=y(wTx b)。注意，γˆ>0意味着(xi，yi)被正确分类，超平面(w，b)对应于训练集S的函数的间隔分布就是训练集S中样例的间隔分布。有时，所谓间隔分布的最小值指超平面 (w，b)对应于训练集S的函数的间隔。最终，训练集S的间隔是在所有超平面上的最大几何间隔，实现这个最大间隔的超平面称之为最大间隔超平面，对于线性可分的训练集来说，间隔的值都讲是正值。下图是xi，xj分别到超平面的几个间隔距离γi，γj：

下面不妨来看看functional margin与geometrical margin二者之间的关系。如图所示，对于一个点

OK，我来推到下上述式子的代入过程：因为f(x)=w^T b，把x=x0 r*w/||w||代入f(x)得，f(x)=f(x。 r *w / ||w||) = w^T(x0 r* w/ ||w||) b = w^T*x0 w^T*r*w/ ||w|| b = w^T*r*w/||w||=r*||w||，所以γ=f(x)/||w||=(w^T*b)/||w||。证毕。

又由于 γˆ/||w||。

1.4、最大间隔分类器maximum margin classifier的定义

通过上文，我们已经很明显的看出，functional margin 和 geometrical margin 相差一个 Support Vector

上节，我们介绍了Maximum Margin Classifier，但并没有具体阐述到底什么是Support Vector，本节，咱们来重点阐述这个概念。咱们不妨先来回忆一下上次最后一张图：

可以看到两个支撑着中间的 gap 的超平面，它们到中间的纯红线 separating hyper plane 的距离相等，即我们所能得到的最大的 geometrical margin

到这个形式以后，就可以很明显地看出来，它是一个凸优化问题，或者更具体地说，它是一个二次优化问题——目标函数是二次的，约束条件是线性的。这个问题可以用任何现成的 QP (Quadratic Programming) 的优化包进行求解。所以，我们的问题到此为止就算全部解决了。

虽然这个问题确实是一个标准的 QP 问题，但是它也有它的特殊结构，通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后，可以找到一种更加有效的方法来进行求解——这也是 SVM 盛行的一大原因，通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。此外，在推导过程中，许多有趣的特征也会被揭露出来，包括刚才提到的 supporting vector 的问题。

至于上述提到，关于什么是Lagrange duality，简单地来说，通过给每一个约束条件加上一个 Lagrange multiplier，我们可以将它们融和到目标函数里去

Kernel

咱们首先给出核函数的来头：

在上文中，我们已经了解到了SVM处理线性可分的情况，而对于非线性的情况，SVM 的处理方法是选择一个核函数，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。由于核函数的优良品质，这样的非线性扩展在计算量上并没有比原来复杂多少，这一点是非常难得的。当然，这要归功于核方法——除了 SVM 之外，任何将计算表示为数据点的内积的方法，都可以使用核方法进行非线性扩展。

也就是说，Minsky和Papert早就在20世纪60年代就已经明确指出线性学习器计算能力有限。为什么呢？因为总体上来讲，现实世界复杂的应用需要有比线性函数更富有表达能力的假设空间，也就是说，目标概念通常不能由给定属性的简单线性函数组合产生，而是应该一般地寻找待研究数据的更为一般化的抽象特征。

而下文我们将具体介绍的核函数则提供了此种问题的解决途径，从下文你将看到，核函数通过把数据映射到高维空间来增加第一节所述的线性学习器的能力，使得线性学习器对偶空间的表达方式让分类操作更具灵活性和可操作性。我们知道，训练样例一般是不会独立出现的，它们总是以成对样例的内积形式出现，而用对偶形式表示学习器的优势在为在该表示中可调参数的个数不依赖输入属性的个数，核函数通过使用恰当的核函数来替代内积，可以隐式得将非线性的训练数据映射到高维空间，而不增加可调参数的个数(当然，前提是核函数能够计算对应着两个输入特征向量的内积)。

总而言之，则是：在线性不可分的情况下，支持向量机通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间，在这个空间中构造最优分类超平面。我们使用SVM进行数据集分类工作的过程首先是同预先选定的一些非线性映射将输入空间映射到高维特征空间：

使得在高维属性空间中有可能最训练数据实现超平面的分割，避免了在原输入空间中进行非线性曲面分割计算。SVM数据集形成的分类函数具有这样的性质：它是一组以支持向量为参数的非线性函数的线性组合，因此分类函数的表达式仅和支持向量的数量有关，而独立于空间的维度，在处理高维输入空间的分类时，这种方法尤其有效，其工作原理如下图所示：

接下来，咱们就从外到里，来探探这个核函数的真面目。

前面我们介绍了线性情况下的支持向量机，它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过，由于是线性方法，所以对非线性的数据就没有办法处理了。例如图中的两类数据，分别分布为两个圆圈的形状，不论是任何高级的分类器，只要它是线性的，就没法处理，SVM 也不行。因为这样的数据本身就是线性不可分的。

对于这个数据集，我可以悄悄透露一下：我生成它的时候就是用两个半径不同的圆圈加上了少量的噪音得到的，所以，一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用

现在让我们再回到 SVM 的情形，假设原始的数据时非线性的，我们通过一个映射，深究部分定理的来龙去脉，证明及原理细节。