（笔记）斯坦福机器学习第七讲--最优间隔分类器

本讲内容

1.Optional margin classifier（最优间隔分类器）

2.primal/dual optimization（原始优化问题和对偶优化问题）KKT conditions（KKT条件）

3.SVM dual （SVM的对偶问题）

4.kernels （核方法）

1.最优间隔分类器

对于一个线性可分的训练集合，最优间隔分类器的任务是寻找到一个超平面(w,b), 使得该超平面到训练样本的几何间隔最大。

你可以任意地成比例地缩放w和b的值，这并不会改变几何间隔的大小。

例如，我可以添加这样的约束：（笔记）斯坦福机器学习第七讲--最优间隔分类器

这意味着我可以先解出w的值，然后缩放w的值，使得（笔记）斯坦福机器学习第七讲--最优间隔分类器

我们可以自由地选择缩放因子来添加一些约束条件，但不会改变几何间隔的大小。

考虑最优间隔分类器的优化问题：

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

添加（笔记）斯坦福机器学习第七讲--最优间隔分类器这个条件，可以使几何间隔等于函数间隔。但是这个条件是一个非常糟糕的非凸性约束，所以需要改变优化问题：

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

实际上这依然是一个糟糕的非凸性优化目标，很难找到参数的全局最优解。之前说过我们可以自由地选择缩放因子来添加一些奇怪的约束条件，这里我们选择添加（笔记）斯坦福机器学习第七讲--最优间隔分类器 .很明显这是一个缩放约束，当解出w，b的值后，你可以对他们进行任意地缩放，使得函数间隔等于1.因此优化问题变为：

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

这就是最终的凸优化问题。

2.原始问题和对偶问题

拉格朗日乘数法

假设有一个优化问题

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

首先创建一个拉格朗日算子

（笔记）斯坦福机器学习第七讲--最优间隔分类器

其中（笔记）斯坦福机器学习第七讲--最优间隔分类器称为拉格朗日乘数。

令参数的偏导数为0：

（笔记）斯坦福机器学习第七讲--最优间隔分类器

解方程组，求得w为最优解。

拉格朗日乘数法的扩展形式

假设有一个优化问题，称为原始问题p

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

首先创建一个拉格朗日算子

（笔记）斯坦福机器学习第七讲--最优间隔分类器

接着定义

（笔记）斯坦福机器学习第七讲--最优间隔分类器

当约束条件满足的时候，即（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

否则，任一约束不满足

（笔记）斯坦福机器学习第七讲--最优间隔分类器

考虑这样的优化问题

（笔记）斯坦福机器学习第七讲--最优间隔分类器

实际上等价于原始问题p

对偶问题：

定义

（笔记）斯坦福机器学习第七讲--最优间隔分类器

考虑这样的优化问题

（笔记）斯坦福机器学习第七讲--最优间隔分类器

这就是对偶问题。注意到对偶问题和原始问题的区别是，对偶问题的求最大值和求最小值的顺序刚好和原始问题相反。

一个事实是（笔记）斯坦福机器学习第七讲--最优间隔分类器 .即最大值的最小值一定大于最小值的最大值。

在特定条件下，原始问题和对偶问题会得到相同的解。因此满足某些条件时，可以用对偶问题的解代替原始问题的解。

通常来说，对偶问题会比原始问题简单，并且具有一些有用的性质。

使原始问题和对偶问题等价的条件：

令f为凸函数 (Hessian H>=0)

假设（笔记）斯坦福机器学习第七讲--最优间隔分类器是仿射函数

接着假设（笔记）斯坦福机器学习第七讲--最优间隔分类器严格可执行（注意是小于，而不是小于等于）

所以，（笔记）斯坦福机器学习第七讲--最优间隔分类器，使得是原始问题的解，是对偶问题的解，并且

KKT(Karush-kuhn-Tucker)互补条件：

(1) （笔记）斯坦福机器学习第七讲--最优间隔分类器

(2) （笔记）斯坦福机器学习第七讲--最优间隔分类器

(3) （笔记）斯坦福机器学习第七讲--最优间隔分类器

(4) （笔记）斯坦福机器学习第七讲--最优间隔分类器

(5) （笔记）斯坦福机器学习第七讲--最优间隔分类器

根据条件(3)，一般情况下（笔记）斯坦福机器学习第七讲--最优间隔分类器

这不是绝对成立的，因为可能两个值都为0.

当（笔记）斯坦福机器学习第七讲--最优间隔分类器成立时，我们称是一个active constraint（活动约束）。

3.最优间隔分类器对偶问题

原始问题

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

约束为

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器这是一个活动约束

当（笔记）斯坦福机器学习第七讲--最优间隔分类器意味着训练样本的函数间隔等于1.

从上图可以看出，通常情况下，一个最优化问题的解只和特别少的样本有关。例如，上图的所有点中，只有离超平面分隔线最近的三个点，他们的函数间隔为1，拉格朗日乘数不为0，这三个样本我们称之为支持向量(support vectors)

拉格朗日算子

（笔记）斯坦福机器学习第七讲--最优间隔分类器

对偶问题为

（笔记）斯坦福机器学习第七讲--最优间隔分类器

为了求解对偶问题，我们需要对w，b求偏导数，并令偏导数为0 得到拉格朗日算子取极小值时的w,b。

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

将上述两条约束代入拉格朗日算子

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

　　　　　　（笔记）斯坦福机器学习第七讲--最优间隔分类器

因此对偶问题可以描述为

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

求解上述对偶问题，解出（笔记）斯坦福机器学习第七讲--最优间隔分类器，那么

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

我们可以将整个算法表示成内积的形式

（笔记）斯坦福机器学习第七讲--最优间隔分类器

（笔记）斯坦福机器学习第七讲--最优间隔分类器

4.核方法

在SVM的特征向量空间中，有时候训练样本的维数非常高，甚至是无限维的向量。但是你可以使用（笔记）斯坦福机器学习第七讲--最优间隔分类器来高效地计算内积，而不必把x显式的表示出来。

这个结论仅对一些特定的特征空间成立。

第七讲完。

　　　　　　　

相关文章：

2021-07-13
2021-07-25
2021-11-05
2021-08-11
2021-09-20
2021-07-26
2021-08-09
2021-07-10

猜你喜欢

2021-06-30
2022-12-23
2021-04-06
2021-05-09
2022-12-23
2021-07-24
2021-07-07

相关资源

下载 2023-02-06
下载 2023-02-15
下载 2022-12-18
下载 2023-03-23

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode