本讲内容

1.Optional margin classifier(最优间隔分类器)

2.primal/dual optimization(原始优化问题和对偶优化问题)KKT conditions(KKT条件)

3.SVM dual (SVM的对偶问题)

4.kernels (核方法)

 

1.最优间隔分类器

对于一个线性可分的训练集合,最优间隔分类器的任务是寻找到一个超平面(w,b), 使得该超平面到训练样本的几何间隔最大。

你可以任意地成比例地缩放w和b的值,这并不会改变几何间隔的大小。

例如,我可以添加这样的约束:(笔记)斯坦福机器学习第七讲--最优间隔分类器

这意味着我可以先解出w的值,然后缩放w的值,使得 (笔记)斯坦福机器学习第七讲--最优间隔分类器

我们可以自由地选择缩放因子来添加一些约束条件,但不会改变几何间隔的大小。

考虑最优间隔分类器的优化问题:

 

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

 

添加 (笔记)斯坦福机器学习第七讲--最优间隔分类器  这个条件,可以使几何间隔等于函数间隔。但是这个条件是一个非常糟糕的非凸性约束,所以需要改变优化问题:

 (笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

 

 实际上这依然是一个糟糕的非凸性优化目标,很难找到参数的全局最优解。之前说过我们可以自由地选择缩放因子来添加一些奇怪的约束条件,这里我们选择添加 (笔记)斯坦福机器学习第七讲--最优间隔分类器 .很明显这是一个缩放约束,当解出w,b的值后,你可以对他们进行任意地缩放,使得函数间隔等于1.因此优化问题变为:

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

这就是最终的凸优化问题。

 

2.原始问题和对偶问题

拉格朗日乘数法

假设有一个优化问题

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

首先创建一个拉格朗日算子

(笔记)斯坦福机器学习第七讲--最优间隔分类器

其中 (笔记)斯坦福机器学习第七讲--最优间隔分类器 称为拉格朗日乘数。

令参数的偏导数为0:

 (笔记)斯坦福机器学习第七讲--最优间隔分类器    (笔记)斯坦福机器学习第七讲--最优间隔分类器

解方程组,求得w为最优解。

拉格朗日乘数法的扩展形式 

假设有一个优化问题,称为原始问题p

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

首先创建一个拉格朗日算子

(笔记)斯坦福机器学习第七讲--最优间隔分类器

接着定义

(笔记)斯坦福机器学习第七讲--最优间隔分类器 

当约束条件满足的时候,即 (笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

否则,任一约束不满足

(笔记)斯坦福机器学习第七讲--最优间隔分类器

 

考虑这样的优化问题

(笔记)斯坦福机器学习第七讲--最优间隔分类器

实际上等价于原始问题p

对偶问题:

定义

(笔记)斯坦福机器学习第七讲--最优间隔分类器

考虑这样的优化问题

(笔记)斯坦福机器学习第七讲--最优间隔分类器

 

这就是对偶问题。注意到对偶问题和原始问题的区别是,对偶问题的求最大值和求最小值的顺序刚好和原始问题相反。

一个事实是 (笔记)斯坦福机器学习第七讲--最优间隔分类器 .即最大值的最小值一定大于最小值的最大值。

在特定条件下,原始问题和对偶问题会得到相同的解。因此满足某些条件时,可以用对偶问题的解代替原始问题的解。

通常来说,对偶问题会比原始问题简单,并且具有一些有用的性质。

使原始问题和对偶问题等价的条件:

令f为凸函数 (Hessian H>=0)

假设 (笔记)斯坦福机器学习第七讲--最优间隔分类器 是仿射函数  (笔记)斯坦福机器学习第七讲--最优间隔分类器

接着假设 (笔记)斯坦福机器学习第七讲--最优间隔分类器 严格可执行 (笔记)斯坦福机器学习第七讲--最优间隔分类器 (注意是小于,而不是小于等于)

所以,(笔记)斯坦福机器学习第七讲--最优间隔分类器, 使得 (笔记)斯坦福机器学习第七讲--最优间隔分类器 是原始问题的解,(笔记)斯坦福机器学习第七讲--最优间隔分类器 是对偶问题的解,并且  (笔记)斯坦福机器学习第七讲--最优间隔分类器

KKT(Karush-kuhn-Tucker)互补条件:

(1)  (笔记)斯坦福机器学习第七讲--最优间隔分类器

(2)  (笔记)斯坦福机器学习第七讲--最优间隔分类器

(3)  (笔记)斯坦福机器学习第七讲--最优间隔分类器

(4)  (笔记)斯坦福机器学习第七讲--最优间隔分类器

(5)  (笔记)斯坦福机器学习第七讲--最优间隔分类器

根据条件(3),一般情况下 (笔记)斯坦福机器学习第七讲--最优间隔分类器

这不是绝对成立的,因为可能两个值都为0.

当 (笔记)斯坦福机器学习第七讲--最优间隔分类器 成立时,我们称 (笔记)斯坦福机器学习第七讲--最优间隔分类器是一个active constraint(活动约束)。

 

 

3.最优间隔分类器 对偶问题

 原始问题 

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

约束为

 (笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

 

(笔记)斯坦福机器学习第七讲--最优间隔分类器 这是一个活动约束

当 (笔记)斯坦福机器学习第七讲--最优间隔分类器 意味着训练样本 (笔记)斯坦福机器学习第七讲--最优间隔分类器 的函数间隔等于1.

从上图可以看出,通常情况下,一个最优化问题的解只和特别少的样本有关。例如,上图的所有点中,只有离超平面分隔线最近的三个点,他们的函数间隔为1,拉格朗日乘数不为0,这三个样本我们称之为支持向量(support vectors)

拉格朗日算子

(笔记)斯坦福机器学习第七讲--最优间隔分类器

对偶问题为

(笔记)斯坦福机器学习第七讲--最优间隔分类器

为了求解对偶问题,我们需要对w,b求偏导数,并令偏导数为0 得到拉格朗日算子取极小值时的w,b。

 

(笔记)斯坦福机器学习第七讲--最优间隔分类器            

 

(笔记)斯坦福机器学习第七讲--最优间隔分类器     (笔记)斯坦福机器学习第七讲--最优间隔分类器 

 

将上述两条约束代入拉格朗日算子

(笔记)斯坦福机器学习第七讲--最优间隔分类器

                 (笔记)斯坦福机器学习第七讲--最优间隔分类器

       (笔记)斯坦福机器学习第七讲--最优间隔分类器

因此对偶问题可以描述为

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

求解上述对偶问题,解出 (笔记)斯坦福机器学习第七讲--最优间隔分类器,那么

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器  

 

我们可以将整个算法表示成内积的形式

(笔记)斯坦福机器学习第七讲--最优间隔分类器

(笔记)斯坦福机器学习第七讲--最优间隔分类器

4.核方法

在SVM的特征向量空间中,有时候训练样本的维数非常高,甚至是无限维的向量。但是你可以使用 (笔记)斯坦福机器学习第七讲--最优间隔分类器 来高效地计算内积,而不必把x显式的表示出来。

这个结论仅对一些特定的特征空间成立。

 

 

第七讲完。

 

 

           

 

相关文章:

  • 2021-07-13
  • 2021-07-25
  • 2021-11-05
  • 2021-08-11
  • 2021-09-20
  • 2021-07-26
  • 2021-08-09
  • 2021-07-10
猜你喜欢
  • 2021-06-30
  • 2022-12-23
  • 2021-04-06
  • 2021-05-09
  • 2022-12-23
  • 2021-07-24
  • 2021-07-07
相关资源
相似解决方案