1 前言
以前还在社团里的时候,讲过一句话:“核是 SVM 里最最最最牛 B 的地方”。
其实当时我感觉它牛 B 是因为我看到这个东西的时候

当时我的问题在于
翻看《统计学习方法》一书,对其中较多的数学证明在此处写下自己的理解。
下面所有一切均为对书中该部分的个人理解,很有可能出错。
2 核函数的主要功效
在SVM中,解决线性不可分问题的主要手段是使用合适的映射将特征从低维向量空间映射至更高维空间,以转化为更高维空间的线性可分问题,这里放两张图直观理解下


显然第一幅图中我们很难用一条直线去很好的区分紫色点和红色点,但在第二幅图中,却可以用一个三维空间中的线性结构—平面去较好的分隔开红点和蓝点。但世上没有免费午餐,更高的维度虽带来了更好的线性可分的概率,但也随之带来了计算复杂度的升高,尤其是一些映射会将特征向量映射至无穷维空间中(如后续介绍Gaussian kernel所对应的核函数),这会直接导致问题不可解(原因是计算机对无穷维根本没法儿算完)。但所幸,SVM中将一个二次规划问题经过拉格朗日乘子法、对偶问题转化等技巧,将优化变量W的确定转化为高维空间向量内积的求解问题,于是核函数的作用便得以显现(skr~)。 所谓核函数,是通过带入两个低维空间向量的坐标,直接计算出所带入向量经某高维映射后,所得向量的内积值,公式如下
κ(x,z)=ϕ(x)ϕ(z)
其中ϕ高维映射函数,κ是核函数
3 正定核的判定
这里按照李航老师的《统计学习方法》一书中的证明思路,我会加上我对其中证明的一些
理解和细化。
3.1 预备知识
3.11 预备定理的描述
书本上的预备知识仅有一句话
设κ(x,z)是定义在χ×χ的对称函数,并且对
∀x1,⋯,xm∈χ,κ(x,z)关于x1,⋯,xm的Gram阵是半正定的,则可根据κ(x,z)构成一个Hilbert空间。
先做下面几点解释,再进行证明
-
这里要注意m是一个可变量
-
定理中Gram阵指的是[κ(xi,xj)]m×m
-
Hilbert空间(听名字怪吓人的)指的就是对极限运算封闭的内积空间,再说的具体一些,就是本身是一个线性空间(满足8条公理),其上装备了内积(集合上可以定义一个运算满足内积运算的4条公理),又其上所有Cauchy序列都收敛于集上一点的集合。
3.12 预备知识的证明
我们的目标无疑是通过κ(x,z)这个特征空间到实数集R上的函数,去构成一个Hilbert空间。
书中分三步求证,第一步通过κ(x,z)建立线性空间,第二步在其上定义内积,第三步将其完备化。
step1.建立一个线性空间
定义映射
ϕ:x→κ(⋅,x)∀x∈χ
∀xi∈χ,αi∈R,i=1,2,⋯,m,定义线性组合
f(⋅)=i=1∑mαiκ(⋅,xi)
所有线性组合构成的集合S是一个线性空间。
注解
-
ϕ是一个特征空间中的有限维向量到一个一元函数的映射,⋅代表变元的位置 ,而原本κ第二个变元位置上由你在特征空间χ选取的元素x决定。
-
线性组合部分要注意到,不仅仅是x在χ的选取是任意的,选取的个数m也是任意的
-
要证明S是一个线性空间,即是要证明S满足8条公理,这里仅证明S上加法封闭提供思路:下将m,l看为固定的常数,设z1,z2,⋯,zl∈χ,根据ϕ,可得κ(⋅,z1),⋯,κ(⋅,zl)这样的n个一元函数,构造其线性组合g(⋅)=j=1∑lβjκ(⋅,zj)则f+g=i=1∑mαiκ(⋅,xi)+j=1∑lβjκ(⋅,zj)可看作是取x1,⋯,xm;z1,z2,⋯,zl∈χ经ϕ所构造的,它依旧是属于S的,故S对加法封闭。(其他7条不难验证)
step2.在S上装备内积
对∀f=i=1∑mαiκ(⋅,xi),g=j=1∑lβjκ(⋅,zj)∈S
定义(f,g)=i=1∑mj=1∑lαiβjκ(xi,zj)
我们要证明(⋅,⋅)满足内积运算的4条公理,即可完成这一步骤,即证明
①(f,g)=(g,f)
②(cf,g)=c(f,g)
③(f+g,h)=(f,h)+(g,h)
④(f,f)⩾0∧(f,f)=0⇔f=0
注解:
- 首先需要注意到Gram阵是一个半正定阵,这就是说他是一个对称阵,由x,y选取的任意性可知κ(x,y)=κ(y,x),有了这一点,①、②就比较容易了。
- 对于③,再设h=k=1∑nγkκ(⋅,γk)则根据所定义运算的法则(f+g,h)=k=1∑nγk[α1κ(x1,y)+⋯+ακ(xm,yk)+β1κ(z1,yk)+⋯+βkκ(zl,yk)]=k=1∑ni=1∑mγkαiκ(xi,yk)+k=1∑nj=1∑lγkαiκ(zj,yk)=(f,h)+(g,h)
- 对于④,先证(f,f)⩾0 (f,f)=i,j=1∑mαiαjκ(xi,xj)可以看成Gram对应的二次型,因为Gram矩阵半正定,所以(f,f)⩾0 关于(f,f)=0⇔f=0的充分性,当f=∑i=1mαiκ(⋅,xi)=0时,可得i=1∑mαiκ(x,xi)=0,∀x∈χ这不就是(f,f)表达式中的一部分吗?于是得(f,f)=0对于必要性的证明,需要用到Cauchy—schwarz不等式,这个不等式在此处成立性的证明和普遍的证明方式没有差异,这里直接使用。首先我们要注意到如下性质(κ(⋅,x),f)=i=1∑mαiκ(x,xi)=f(x),∀x∈χ运用Cauchy—schwarz,有(κ(⋅,x),f)2=f(x)2⩽(κ(⋅,x),κ(⋅,x))(f,f)=0于是有f(x)=0,再由x任意性知f=0。从而S是一个内积空间。
step3.内积空间完备化
S是内积空间,于是可诱导向量的范数
∥f∥=(f,f)
它是一个范数,肯定满足范数3条公理,我们来验证下三角不等式这一条
∥f+g∥2=(f+g,f+g)=(f,f)+2(f,g)+(g,g)=∥f∥2+2(f,g)+∥g∥2⩽∥f∥2+2∥f∥∥g∥+∥g∥2=(∥f∥+∥g∥)2
还是简单应用了下Cauchy—schwarz不等式。从而S是一个赋范向量空间(说人话就是定义了范数的线性空间),这里书上用了一个泛函的结论(这里我也不会,先承认下来,以后回头再看)
任意赋范向量空间都可完备化
则S→H,H是一个Banach空间(说人话就是完备的赋范向量空间)。
而S装备了内积,所以H是一个Hilbert空间。
下面我们要列出的是H的重要性质,因为这个性质,H称为再生核Hilbert空间。
κ(⋅,x)f=f(x)
取f=κ(⋅,z),立刻可推出
κ(⋅,x)κ(⋅,z)=κ(x,z)
这里我存有一个疑问,为什么要要求高维映射的像空间是完备的,这样做的意义在何处体现?
3.2 正定核充要条件
如何判断一个函数κ是否可以作为核函数,即能否带入两个低维空间向量的坐标,直接计算出的值可作为所带入向量间经某高维映射所得向量的内积值?
一个函数κ:χ×χ→R可作为正定核函数的充要条件为∀x1,⋯,xm∈χ,k(x,z)的Gram阵K=[κ(xi,xj)]m×m半正定。
注意这里的m和x都是任意的啊,也就是说,输入样本的组合可以改变,样本的数量也可以改变。
充分性
由前结果,若对任何输入样本的规模和组合对应的Gram矩阵是半正定的,则我们可以构造一个映射
ϕ:x→κ(⋅,x)
也即ϕ:χ→H
由H中的再生性
κ(x,z)=κ(⋅,x)κ(⋅,z)
这即是
κ(x,z)=ϕ(x)ϕ(z)
即κ(x,z)可达到核函数的效用,对应的高维映射为ϕ。
必要性
K(x,z)是正定核,则存在ϕ:χ→H,满足
κ(x,z)=ϕ(x)ϕ(z)
于是∀x1,⋯,xm∈χ,c1,c2,⋯,cm∈R
i=1∑mj=1∑mcicjKij
=i=1∑mj=1∑mcicjκ(xi,xj)
=i=1∑mj=1∑mcicjϕ(xi)ϕ(xj)
=(i=1∑mciϕ(xi))(j=1∑mcjϕ(xj))=(i=1∑mciϕ(xi))2⩾0
于是K半正定■
4.Gaussian核函数
关于Gaussian核函数为什么将特征映射到无穷维空间
GaussianKernel:exp(−2σ2∥x−y∥2)
κ(x,y)=exp(−2σ2∥x−y∥2)
=exp(−2σ2∑ixi2)exp(−2σ2∑iyi2)exp(σ2∑ixiyi)
=exp(−2σ2∑ixi2)exp(−2σ2∑iyi2)i∏exp(σ2xiyi)
Taylor展开连乘号内部的式子
=exp(−2σ2∑ixi2)exp(−2σ2∑iyi2)i∏n=0∑∞σ2nn!xinyin
=exp(−2σ2∑ixi2)exp(−2σ2∑iyi2)n=0∑∞i∏n!σnxini∏n!σnyin
=n=0∑∞[(exp(−2σ2∑ixi2)i∏n!σnxin)(n=0∑∞exp(−2σ2∑iyi2)i∏n!σnyin)]
上式可看作两个无穷维向量的内积
=ϕ(x)Tϕ(y)
这即是Gaussian核函数将特征映射至无穷维空间的原因。