机器学习---3 - 爱码网

十三 SVM—线性可分SVM原理
十四　SVM—直观理解拉格朗日乘子法
十五 SVM对偶学习
十六　线性SVM、间隔由硬到软
十七非线性SVM和核函数
十八 SVR－一种宽容的回归模型
十九　直观认识SVM和SVR
二十 HMM－定义和假设
二十一　HMM－三个基本问题
二十二　HMM－三个基本问题的计算
二十三　CRF-概率无向图模型到线性链条件随机场
二十四 CRF—三个基本问题
二十五从有监督到无监督：由KNN引出Kmeans
二十六 K-means—最简单的聚类算法
二十七谱聚类–无需指定簇数量的聚类
二十八 EM算法－－－估计含有隐变量的概率模型的参数
二十九　GMM—归类样本
三十 GMM－－用EM算法求解ＧＭＭ
三十一　PCA
三十二 PCA
三十三人工智能和神经网络

十三 SVM—线性可分SVM原理

线性可分和超平面

二分类问题

在机器学习的应用中，至少现阶段，分类是一个非常常见的需求。特别是二分类，它是一切分类的基础。而且，很多情况下，多分类问题可以转化为二分类问题来解决。

所谓二分类问题就是：给定的各个样本数据分别属于两个类之一，而目标是确定新数据点将归属到哪个类中。

特征的向量空间模型
一个个具体的样本，在被机器学习算法处理时，由其特征来表示。换而言之，每个现实世界的事物，在用来进行机器学习训练或预测时，需要转化为一个特征向量。
假设样本的特征向量为n维，那么我们说这些样本向量处在n维的特征空间中。
一般来说，特征空间可以是欧氏空间，也可以是希尔伯特空间，不过为了便于理解，我们在以后的所有例子中都使用欧氏空间。

直观上，当我们把一个 n 维向量表达在一个 n 维欧氏空间中的时候，能够“看到”的一个个向量对应为该空间中的一个个点。

这样来想象一下：我们把若干样本的特征向量放到特征空间里去，就好像在这个 n 维空间中撒了一把“豆”。

当 n=1 时，这些“豆”是一条直线上的若干点；当 n=2 时，这些“豆”是一个平面上的若干点；当 n=3 时，这些“豆”是一个几何体里面的若干点……

线性可分
现在再想想我们选取特征的目的：我们将一个事物的某些属性数字化，再映射为特征空间中的点，其目的当然是为了对其进行计算。

但是如果这些点在特征空间中就能够对应它们预期的二分类分为两个部分，那不是最理想的情况吗？

比如，我们的特征向量是2维的，下面图中的红蓝两色点都是样本的特征向量，不过红色点对应的是正类，而蓝色点对应的是负类：
机器学习---3
我们发现，哎？在当前的特征空间（上面二维坐标系）中，正负两类样本各自和自己的“同伙”“站在”一个阵营里，而这两个“阵营”之间，则已经有了一条隐隐的楚河汉界。

我们可以把这条楚河汉界（分割线）画出来，见下图中绿色线：
机器学习---3
这样，两类样本完美地被绿线分隔开。此时，我们说这两类样本在其特征空间里线性可分。

线性可分的严格定义：
D0和D1是n维欧式空间中的两个点集（点的集合），如果存在n维向量w和实数b，使得所有属于D0的点xi都有wxi+b>0,而对于所有属于D1的点xj则有wxj+b<0.则称D0和D1是线性可分。

超平面

上面提到的，将 D0 和 D1 完全正确地划分开的
wx+b=0 ，就是超平面（Hyperplane）。

超平面：n 维欧氏空间中维度等于 n-1 的线性子空间。

1维欧氏空间（直线）中的超平面为0维（点），2维欧氏空间中的超平面为1维（直线）；3维欧氏空间中的超平面为2维（平面）；以此类推。

在数学意义上，将线性可分的样本用超平面分隔开的分类模型，叫做线性分类模型，或线性分类器。
我们可以想象，在一个样本特征向量线性可分的特征空间里，可能有许多超平面可以把两类样本分开。在这种情况下，我们当然要找最佳超平面。

什么样的超平面是最佳的呢，一个合理的策略是：
以最大间隔把两类样本分开的超平面，是最佳超平面。

最佳超平面为：

1.两类样本分别分隔在该超平面的两侧
两侧距离超平面最近样本点到超平面的距离被最大化

这样的超平面又叫做最大间隔超平面

线性可分支持向量机

线性可分支持向量机就是：以找出线性可分的样本在特征空间中最大间隔超平面为学习目标的分类模型。

怎么才能找到最大间隔超平面呢？
先找两个平行的，能够分离正负例的辅助超平面，然后将他们分别推向正负例两侧，使得他们之间的距离尽可能的大，一直到有至少有一个正样本或者负样本通过对应的辅助超平面为止。
下图是二维坐标系里，两个辅助超平面（蓝、红两条直线）的例子：
机器学习---3
这两个超平面互相平行，他们范围内的区域称为间隔，最大间隔超平面位于这两个辅助平面的正中的位置与他们平行的超平面。

机器学习---3
用来训练线性可分支持向量机的样本记作：

其中，xi表示n维实向量，而yi=1/-1，i=1,2…,m
yi为xi的标签，当yi=1时，xi为正例，当yi=-1时，xi为负例。
我们要找到将上面m个样本完整正确地分隔为正负两类的最大间隔超平面wx+b=0

这个超平面由其法向量w和截距b确定，可用（w,b）表示。
机器学习---3
这m个样本在特征空间是线性可分的，因此我们可以找到两个正负两类样本分离到距离尽可能大的超平面，他们分别是：

通过几何不难得到这两个超平面