正定核—vincen的学习笔记

1 前言

以前还在社团里的时候，讲过一句话:“核是 $SVM$ 里最最最最牛 B 的地方”。

其实当时我感觉它牛 B 是因为我看到这个东西的时候
正定核—vincen的学习笔记

当时我的问题在于

这些核函数是如何找到的？亦或者给定一个函数，有什么方法可以判定其是否可作为核函数？
为什么高斯核函数将特征映射到了无穷维空间中？

翻看《统计学习方法》一书，对其中较多的数学证明在此处写下自己的理解。

下面所有一切均为对书中该部分的个人理解，很有可能出错。

2 核函数的主要功效

在SVM中，解决线性不可分问题的主要手段是使用合适的映射将特征从低维向量空间映射至更高维空间，以转化为更高维空间的线性可分问题，这里放两张图直观理解下
正定核—vincen的学习笔记

显然第一幅图中我们很难用一条直线去很好的区分紫色点和红色点，但在第二幅图中，却可以用一个三维空间中的线性结构—平面去较好的分隔开红点和蓝点。但世上没有免费午餐，更高的维度虽带来了更好的线性可分的概率，但也随之带来了计算复杂度的升高，尤其是一些映射会将特征向量映射至无穷维空间中(如后续介绍 $Gaussian$ $kernel$ 所对应的核函数),这会直接导致问题不可解(原因是计算机对无穷维根本没法儿算完)。但所幸， $SVM$ 中将一个二次规划问题经过拉格朗日乘子法、对偶问题转化等技巧，将优化变量 $W$ 的确定转化为高维空间向量内积的求解问题，于是核函数的作用便得以显现(skr~)。所谓核函数，是通过带入两个低维空间向量的坐标，直接计算出所带入向量经某高维映射后，所得向量的内积值，公式如下
$\kappa(x,z)=\phi(x)\phi(z)$
其中 $\phi$ 高维映射函数， $\kappa$ 是核函数

3 正定核的判定

这里按照李航老师的《统计学习方法》一书中的证明思路，我会加上我对其中证明的一些
理解和细化。

3.1 预备知识

3.11 预备定理的描述

书本上的预备知识仅有一句话

设 $\kappa(x,z)$ 是定义在 $\chi\times\chi$ 的对称函数，并且对
$\forall x_1,\cdots,x_m\in\chi$ ， $\kappa(x,z)$ 关于 $x_1,\cdots,x_m$ 的Gram阵是半正定的,则可根据 $\kappa(x,z)$ 构成一个 $Hilbert$ 空间。

先做下面几点解释，再进行证明

这里要注意 $m$ 是一个可变量
定理中Gram阵指的是 $[\kappa(x_i,x_j)]_{m×m}$
$Hilbert$ 空间(听名字怪吓人的)指的就是对极限运算封闭的内积空间，再说的具体一些，就是本身是一个线性空间（满足8条公理），其上装备了内积（集合上可以定义一个运算满足内积运算的4条公理），又其上所有 $Cauchy$ 序列都收敛于集上一点的集合。

3.12 预备知识的证明

我们的目标无疑是通过 $\kappa(x,z)$ 这个特征空间到实数集 $R$ 上的函数，去构成一个 $Hilbert$ 空间。

书中分三步求证，第一步通过 $\kappa(x,z)$ 建立线性空间，第二步在其上定义内积，第三步将其完备化。

step1.建立一个线性空间

定义映射
$\phi:x\rightarrow\kappa(\cdot,x)\quad \forall x\in\chi$
$\forall x_i\in\chi,\alpha_i\in R,i = 1,2,\cdots,m$ ，定义线性组合
$f(\cdot) = \sum_{i=1}^m\alpha_i\kappa(\cdot,x_i)\quad$
所有线性组合构成的集合 $S$ 是一个线性空间。

注解

$\phi$ 是一个特征空间中的有限维向量到一个一元函数的映射， $\cdot$ 代表变元的位置，而原本 $\kappa$ 第二个变元位置上由你在特征空间 $\chi$ 选取的元素 $x$ 决定。
线性组合部分要注意到，不仅仅是 $x$ 在 $\chi$ 的选取是任意的，选取的个数 $m$ 也是任意的
要证明 $S$ 是一个线性空间，即是要证明 $S$ 满足8条公理，这里仅证明 $S$ 上加法封闭提供思路：下将 $m$ , $l$ 看为固定的常数,设 $z_1,z_2,\cdots,z_l\in \chi$ ，根据 $\phi$ ，可得 $\kappa(\cdot,z_1)$ , $\cdots,\kappa(\cdot,z_l)$ 这样的 $n$ 个一元函数，构造其线性组合 $g(\cdot) = \sum_{j = 1}^{l}\beta_j\kappa(\cdot,z_j)$ 则 $f+g = \sum_{i=1}^m\alpha_i\kappa(\cdot,x_i)+\sum_{j = 1}^{l}\beta_j\kappa(\cdot,z_j)$ 可看作是取 $x_1,\cdots,x_m;z_1,z_2,\cdots,z_l\in\chi$ 经 $\phi$ 所构造的，它依旧是属于 $S$ 的，故 $S$ 对加法封闭。(其他7条不难验证)

step2.在 $S$ 上装备内积

对 $\forall f = \sum_{i=1}^m\alpha_i\kappa(\cdot,x_i),g = \sum_{j = 1}^{l}\beta_j\kappa(\cdot,z_j)\in S$
定义 $(f,g) = \sum_{i=1}^m\sum_{j=1}^l\alpha_i\beta_j\kappa(x_i,z_j)$
我们要证明 $(\cdot,\cdot)$ 满足内积运算的4条公理，即可完成这一步骤，即证明
$①(f,g) = (g,f)$
$②(cf,g) = c(f,g)$
$③(f+g,h) = (f,h)+(g,h)$
$④(f,f)\geqslant 0 \wedge (f,f) = 0\Leftrightarrow f = 0$
注解:

首先需要注意到 $Gram$ 阵是一个半正定阵，这就是说他是一个对称阵，由 $x,y$ 选取的任意性可知 $\kappa(x,y) = \kappa(y,x)$ ，有了这一点，①、②就比较容易了。
对于③，再设 $h = \sum_{k=1}^{n}\gamma_k\kappa(\cdot,\gamma_k)$ 则根据所定义运算的法则 $(f+g,h)$ $=\sum_{k=1}^{n}\gamma_k[\alpha_1\kappa(x_1,y)+\cdots+\alpha\kappa(x_m,y_k)+\beta_1\kappa(z_1,y_k)+\cdots+\beta_k\kappa(z_l,y_k)]$ $=\sum_{k=1}^n\sum_{i=1}^m\gamma_k\alpha_i\kappa(x_i,y_k)+\sum_{k=1}^n\sum_{j=1}^l\gamma_k\alpha_i\kappa(z_j,y_k)$ $=(f,h)+(g,h)$
对于④，先证 $(f,f)\geqslant 0$ $(f,f) = \sum_{i,j = 1}^{m}\alpha_i\alpha_j\kappa(x_i,x_j)$ 可以看成 $Gram$ 对应的二次型，因为 $Gram$ 矩阵半正定，所以 $(f,f)\geqslant 0$ 关于 $(f,f) = 0\Leftrightarrow f = 0$ 的充分性，当 $f = \sum_{i=1}^{m}\alpha_i\kappa(\cdot,x_i)=0$ 时，可得 $\sum_{i=1}^{m}\alpha_i\kappa(x,x_i)=0,\forall x\in\chi$ 这不就是 $(f,f)$ 表达式中的一部分吗?于是得 $(f,f)=0$ 对于必要性的证明,需要用到 $Cauchy—$ $schwarz$ 不等式，这个不等式在此处成立性的证明和普遍的证明方式没有差异，这里直接使用。首先我们要注意到如下性质 $(\kappa(\cdot,x),f)=\sum_{i=1}^{m}\alpha_i\kappa(x,x_i)=f(x),\forall x\in\chi$ 运用 $Cauchy—$ $schwarz$ ，有 $(\kappa(\cdot,x),f)^2=f(x)^2 \leqslant(\kappa(\cdot,x),\kappa(\cdot,x))(f,f)=0$ 于是有 $f(x)=0$ ,再由 $x$ 任意性知 $f=0$ 。从而 $S$ 是一个内积空间。

step3.内积空间完备化

$S$ 是内积空间，于是可诱导向量的范数
$\|f\| = \sqrt{(f,f)}$
它是一个范数，肯定满足范数3条公理，我们来验证下三角不等式这一条
$\|f+g\|^2=(f+g,f+g)$ $= (f,f)+2(f,g)+(g,g)$ $= \|f\|^2+2(f,g)+\|g\|^2$ $\leqslant \|f\|^2+2\|f\|\|g\|+\|g\|^2$ $=(\|f\|+\|g\|)^2$
还是简单应用了下 $Cauchy—schwarz$ 不等式。从而 $S$ 是一个赋范向量空间（说人话就是定义了范数的线性空间）,这里书上用了一个泛函的结论(这里我也不会，先承认下来，以后回头再看)

任意赋范向量空间都可完备化

则 $S\rightarrow\mathcal {H}$ , $\mathcal{H}$ 是一个 $Banach$ 空间(说人话就是完备的赋范向量空间)。
而 $S$ 装备了内积，所以 $\mathcal{H}$ 是一个 $Hilbert$ 空间。
下面我们要列出的是 $\mathcal{H}$ 的重要性质，因为这个性质， $\mathcal{H}$ 称为再生核 $Hilbert$ 空间。
$\kappa(\cdot,x)f=f(x)$
取 $f = \kappa(\cdot,z)$ ，立刻可推出
$\kappa(\cdot,x)\kappa(\cdot,z) = \kappa(x,z)$
这里我存有一个疑问，为什么要要求高维映射的像空间是完备的，这样做的意义在何处体现？

3.2 正定核充要条件

如何判断一个函数 $\kappa$ 是否可以作为核函数，即能否带入两个低维空间向量的坐标，直接计算出的值可作为所带入向量间经某高维映射所得向量的内积值?

一个函数 $\kappa:\chi\times\chi\rightarrow R$ 可作为正定核函数的充要条件为 $\forall x_1,\cdots,x_m\in\chi,k(x,z)$ 的 $Gram$ 阵 $K=[\kappa(x_i,x_j)]_{m×m}$ 半正定。

注意这里的 $m$ 和 $x$ 都是任意的啊，也就是说，输入样本的组合可以改变，样本的数量也可以改变。

充分性

由前结果，若对任何输入样本的规模和组合对应的 $Gram$ 矩阵是半正定的，则我们可以构造一个映射
$\phi:x\rightarrow\kappa(\cdot,x)$
也即 $\phi:\chi\rightarrow\mathcal{H}$
由 $\mathcal{H}$ 中的再生性
$\kappa(x,z) = \kappa(\cdot,x)\kappa(\cdot,z)$
这即是
$\kappa(x,z) = \phi(x)\phi(z)$
即 $\kappa(x,z)$ 可达到核函数的效用，对应的高维映射为 $\phi$ 。

必要性

$K(x,z)$ 是正定核，则存在 $\phi:\chi\rightarrow\mathcal{H}$ ,满足
$\kappa(x,z)=\phi(x)\phi(z)$
于是 $\forall x_1,\cdots,x_m\in\chi,c_1,c_2,\cdots,c_m\in R$
$\sum_{i=1}^m\sum_{j =1}^mc_ic_jK_{ij}$
$= \sum_{i=1}^m\sum_{j =1}^mc_ic_j\kappa(x_i,x_j)$
$=\sum_{i=1}^m\sum_{j =1}^mc_ic_j\phi(x_i)\phi(x_j)$
$=(\sum_{i=1}^m{c_i\phi(x_i)})(\sum_{j =1}^mc_j\phi(x_j))$ $=(\sum_{i=1}^m{c_i\phi(x_i)})^2\geqslant0$
于是 $K$ 半正定 $\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\blacksquare$

4.Gaussian核函数

关于Gaussian核函数为什么将特征映射到无穷维空间
$Gaussian\quad Kernel:exp(-\frac{\|x-y\|^2}{2\sigma^2})$
$\kappa(x,y) = exp(-\frac{\|x-y\|^2}{2\sigma^2})$
$=exp(-\frac{\sum_i{x_i^2}}{2\sigma^2})exp(-\frac{\sum_i{y_i^2}}{2\sigma^2})exp(\frac{\sum_i{x_iy_i}}{\sigma^2})$
$=exp(-\frac{\sum_i{x_i^2}}{2\sigma^2})exp(-\frac{\sum_i{y_i^2}}{2\sigma^2})\prod_iexp(\frac{{x_iy_i}}{\sigma^2})$
$Taylor$ 展开连乘号内部的式子
$=exp(-\frac{\sum_i{x_i^2}}{2\sigma^2})exp(-\frac{\sum_i{y_i^2}}{2\sigma^2})\prod_i\sum_{n=0}^{\infty}\frac{{x_i^ny_i^n}}{\sigma^{2n}n!}$
$=exp(-\frac{\sum_i{x_i^2}}{2\sigma^2})exp(-\frac{\sum_i{y_i^2}}{2\sigma^2})\sum_{n=0}^{\infty}\prod_i\frac{{x_i^n}}{\sqrt{n!}\sigma^{n}}\prod_i\frac{{y_i^n}}{\sqrt{n!}\sigma^{n}}$
$=\sum_{n=0}^{\infty}[(exp(-\frac{\sum_i{x_i^2}}{2\sigma^2})\prod_i\frac{{x_i^n}}{\sqrt{n!}\sigma^{n}})(\sum_{n=0}^{\infty}exp(-\frac{\sum_i{y_i^2}}{2\sigma^2})\prod_i\frac{{y_i^n}}{\sqrt{n!}\sigma^{n}})]$
上式可看作两个无穷维向量的内积
$=\phi(x)^T\phi(y)$
这即是Gaussian核函数将特征映射至无穷维空间的原因。