【林轩田】机器学习基石（七）——VC维

Lecture 7: VC Dimension VC维

ppt
video

7.1 Definition of VC Dimension VC维的定义

复习1

上节课，林教授讲到了，当样本 $N$ 足够大，且成长函数 $m_{H} (N)$ 存在断点 $k$ 时，可以概率性地推出 $E_{o u t} ≃ E_{i n}$

即

有 断 点 k 的 m_{H} (N) \leq B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i}) [最 大 为 N^{k - 1}]

【林轩田】机器学习基石（七）——VC维

复习2 VC边界

对演算法 $A$ 在数据空间 $D$ 上选择的任何假设 $g$ ，当 $D$ 在统计学意义上足够大时，这个假设是坏假设的几率是

P_{D} [| E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq P_{D} [\exists h \in H, s . t . | E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq 4 m_{H} (2 N) e x p (- \frac{1}{8} ϵ^{2} N) \leq 4 * (2 N)^{k - 1} e x p (- \frac{1}{8} ϵ^{2} N) [如 果 k 存 在 的 话]

所以，如果

$m_{H} (N) 有断点 k ， H 是好的假设$
$N 足够大， D 是好的数据集$
以上两点推出， $E_{i n} ≃ E_{o u t}$
如果，演算法 $A$ 选择了一个有小 $E_{i n}$ 的 $g$ ， $A$ 是好的演算法

有了上面三条，再加上好运气，我们就学到了好的规律！！

vc维定义

vc维是最大的非断点的正式名称

假设函数 $H$ 的VC维，记为 $d_{V C} (H)$ ，是使得成长函数 $m_{H} (N) = 2^{N}$ 最大的N，即

假设函数 $H$ 可以shatter的最多的输入数量
$d_{v c} = 最小的断点 k - 1$
如下图，这是上节课提出的几个例子：
所以，如果我们有有限个VC维的话，就可以推出不论选择哪个 $g$ ，都能够保证 $E_{i n} (g) ≃ E_{o u t} (g)$ ，而不用关心
- 演算法 $A$ 长什么样。
- 样本分布 $P$ 长什么样。
- 目标函数 $f$ 长什么样。

7.2 VC dimension for perceptrons 感知器的VC维

矩阵相关

开始之前，我们先复习两个矩阵相关的概念。

逆矩阵

$设 A 为数域上的一个 n 阶方针，若在相同数域上存在另一个 n 阶方阵 B ，使得 A B = B A = E 。$
$则称， B 为 A 的逆矩阵， A 为可逆矩阵。$
$注： E 为单位矩阵。$

举个例子：

A = [\begin{matrix} 1 & 2 \\ 4 & 3 \end{matrix}]

求 $A$ 的逆矩阵。
解：
假设

B = [\begin{matrix} a & b \\ c & d \end{matrix}]

A * B = [\begin{matrix} 1 & 2 \\ 4 & 3 \end{matrix}] * [\begin{matrix} a & b \\ c & d \end{matrix}] = [\begin{matrix} a + 2 c & b + 2 d \\ 4 a + 3 c & 4 b + 3 d \end{matrix}] = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]

所以，

{\begin{array}{lr} a + 2 c = 1, \\ b + 2 d = 0. \\ 4 a + 3 c = 0 \\ 4 b + 3 d = 1, \end{array}

得到,

B = [\begin{matrix} - 0.6 & 0.4 \\ 0.8 & - 0.2 \end{matrix}]

线性相关

设 $a_{1}, a_{2}, . . . a_{m}$ 为一组 $n 维向量$ ，若存在一组不全为0的实数 $k_{1}, k_{2}, . . . k_{m}$ ，使得

k_{1} a_{1} + k_{2} a_{2} + k_{3} a_{3} + . . . + k_{m} a_{m} = 0

则称向量组

a_{1}, a_{2}, . . ., a_{m}

线性相关，反之，线性无关。

将向量组写成矩阵，如何通过矩阵的性质判断向量组是线性相关还是线性无关呢？

将矩阵进行初等行变换，化为阶梯型矩阵，若非零行的行数等于向量的个数，即矩阵满秩，则为向量组线性无关；若非零行行数小于向量个数，即矩阵非满秩，则向量组线性相关。

感知器的vc维

首先我们来回顾一下二维感知器：
【林轩田】机器学习基石（七）——VC维
在线性可分的情况下，PLA是可以找到最佳的 $g$ 的，当迭代次数 $T$ 足够大时，我们能保证 $E_{i n} (g) = 0$ ；
在之前关于机器学习可行性的论证中，二维线性分割问题的vc维等于3是有限的，在训练样本 $N$ 足够大时， $E_{o u t} (g) ≃ E_{i n} (g)$

所以，我们能推出，在二维线性可分问题中， PLA的 $E_{o u t} (g) ≃ 0$ 。

现在，我们提出一个问题，PLA在多维情况下仍旧可行吗？

【林轩田】机器学习基石（七）——VC维

注意到一维的感知机 $d_{v c} = 2$ ，二维的感知机 $d_{v c} = 3$ ；
猜想， $D$ 维的感知机 $d_{v c} = d + 1$

如何验证这个猜想呢？分为两步：

验证 $d_{v c} \geq d + 1$
验证 $d_{v c} \leq d + 1$

首先证明 $d_{v c} \geq d + 1$ ，因为 $v c$ 维的定义是，能够被shatter的最大输入数量；如果我们能找到至少1个 $d$ 维的能shatter的最大输入数量是 $d + 1$ 的情形，那么就可以说 $d_{v c} \geq d + 1$
【林轩田】机器学习基石（七）——VC维

我们构造一个有 $d + 1$ 个inputs的 $d$ 维矩阵：

X = [\begin{matrix} 0 & 0 & 0 & . . . & 0 \\ 1 & 0 & 0 & . . . & 0 \\ 0 & 1 & 0 & . . . & 0 \\ 0 & 0 & 1 & . . . & 0 \\ . . . \\ . . . \\ 0 & 0 & 0 & . . . & 1 \end{matrix}]

第一个input向量代表原点，有d个0；其余d行向量分别代表某一维值为1，其它维值为0的向量。

注意到图中灰色的一列，我们给向量的左边添加一列常数1，代表threshold。

当 $d = 1$ 时:

X = [\begin{matrix} 0 \\ 1 \end{matrix}]

可见

d + 1 = 2

个inputs是shatter的
当

d = 2

时：

X = [\begin{matrix} 0 & 0 \\ 1 & 0 \\ 0 & 1 \end{matrix}]

也就是说在二维平面直角坐标系上，是(0,0),(1,0)和(0,1)三个点，我们在几何上可以很容易证明，这三个点是shatter的。

我们说 $d + 1$ 个inputs是shatter的，就是说假设空间中，包含输出 $y$ 的全排列，就是对任意的 $y$ ，

y = [\begin{matrix} y_{1} \\ y_{2} \\ . . . \\ y_{d + 1} \end{matrix}]

总能找到一个

w

，使得

s i g n (w X) = y

成立。

注意到我们构造的矩阵是可逆的，所以 $w X = y \to w = X^{- 1} y$ 总是成立的。

这里我们证明了第一个不等式，即我们找到了d维的d+1个inputs可以被shatter。

如何证明 $d_{v c} <= d + 1$ 呢？我们需要证明，对d维的任意 $d + 2$ 个输入来说，都是不能被shatter的。

【林轩田】机器学习基石（七）——VC维

考虑一个二维的例子， $d = 2, d + 2 = 4$ ,也就是4行2列的矩阵，我们在左边偷偷再加一列常数1表示threshold，这样就构成了一个4行3列的矩阵。

这四个点在平面直角坐标系上的表示，分别是(0,0)，(1,0),(0,1),(1,1)，根据以前的学习，我们知道这四个点是不能被shatter的。
【林轩田】机器学习基石（七）——VC维

也就是说，如果我们定好了另外三个点分别是圈、叉、圈，第四个点一定不能是叉，只能是圈，用线性代数表示：

w^{T} x_{4} = w^{T} x_{2} + w^{T} x_{3} - w^{T} x_{1} > 0

从矩阵的角度来说，如果一个矩阵的行数大于列数，这个矩阵的向量组是线性相关的。

【林轩田】机器学习基石（七）——VC维

这里假设， $a_{n}$ 与 $w^{T} x_{n}$ 的符号相同，也就是说，我们假设 $a_{1}$ 是正的， $a_{2}, a_{3} . . . ., a_{d + 1}$ 是负的，那么
【林轩田】机器学习基石（七）——VC维

根据负负得正， $w^{T} x_{d + 2}$ 一定大于0；也就是说，不存在 $x_{d + 2}$ 为叉叉的情况，这样已经证明出， $d + 2$ 个inputs是不能被shatter的，所以 $d_{v c} <= d + 1$

所以，我们证明了d维的感知机模型， $d_{v c} = d + 1$ 。

7.3 Physical Intuition of VC Dimension vc维的直观物理解释

假设的参数 $w$ 代表了自由程度(degrees of freedom)，参数越多，代表假设空间函数的可调节能力越强。
假设的数量， $M = | H |$ ，可以类比成自由程度。
上一小节提到的vc维，可以理解为有效地二元分割的自由程度。

【林轩田】机器学习基石（七）——VC维

根据经验，虽然不是总这样， $d_{v c}$ 的值和自由参数个数是相等的。

【林轩田】机器学习基石（七）——VC维

第五节课曾经讨论过 $M$ 和机器学习两个核心问题的关系，将 $M$ 转换为 $d_{v c}$ ，结论类似。

$d_{v c}$ 小时，坏事情发生的概率右边界小，也就是说我们有极高的概率保证 $E_{o u t} \approx E_{i n}$ ，但是同时因为 $d_{v c}$ 较小，可以选择的 $H$ 也少了，所以不能保证 $E_{i n}$ 足够小。
反之如是。

所以选择一个合适的 $d_{v c}$ ，或者说合适的假设空间 $H$ ,或者说合适的模型，是十分重要的。

【林轩田】机器学习基石（七）——VC维

Fun Time问题是，经过原点的也就是说固定 $w_{0}$ 为0的感知器模型的 $d_{v c}$ 是多少？这个问题可以从自有参数与 $d_{v c}$ 的关系入手，因为自由参数少了一个，所以 $d_{v c}$ 也相应地减1。答案是2，d。

7.4 Interpreting VC Dimension VC维的解释

【林轩田】机器学习基石（七）——VC维

在深入解释vc维之前，我们先来回顾一下vc边界。vc边界指坏事发生的概率的右边界，用 $δ$ 表示。

换个说法，好事情发生概率的左边界就是 $1 - δ$ ，即

P_{D} [| E_{i n} (g) - E_{o u t} (g) | \leq ϵ] \geq 1 - δ

用

δ

表示

ϵ

，得到

也就是说，在 $1 - δ$ 的概率下：

| E_{i n} (g) - E_{o u t} (g) | \leq \sqrt{\frac{8}{N} l n (\frac{4 (2 N)^{d_{v c}}}{δ})}

去掉绝对值，

E_{i n} (g) - \sqrt{\frac{8}{N} l n (\frac{4 (2 N)^{d_{v c}}}{δ})} \leq E_{o u t} (g) \leq E_{i n} (g) + \sqrt{\frac{8}{N} l n (\frac{4 (2 N)^{d_{v c}}}{δ})}

【林轩田】机器学习基石（七）——VC维

我们重点关注右边界，使用 $Ω (N, H, δ)$ 表示根号项的一大串内容，视为模型复杂度的惩罚项。

【林轩田】机器学习基石（七）——VC维

左图横轴是 $d_{v c}$ ，纵轴是Error。

随着 $d_{v c}$ 的增大， $E_{i n}$ 是减小的。可以这么理解， $d_{v c}$ 增大了，代表假设空间中可供选择的 $g$ 变多了，也就更容易找到小的 $E_{i n}$ 。
根据公式， $d_{v c}$ 增大，模型复杂度也在增大。
$E_{o u t}$ 根据前两个的走势，大致呈现山谷形。

【林轩田】机器学习基石（七）——VC维

给定一些参数，计算需要训练样本 $N$ 的值，我们发现，理论上样本 $N = 10000 d_{v c}$ ，但是经验上， $N = 10 d_{v c}$ 就可以了。
所以说我们的vc bound是十分宽松的，那它为什么如此宽松呢？原因如图。
【林轩田】机器学习基石（七）——VC维