《机器学习基石》6-Theory of Generalization

Restriction of Break Point

上次我们说到，需要探究 “break point” $k$ 与 $m_{H} (N)$ 之间的关系。回顾一下， $m_{H} (N)$ 表示假设空间在 $N$ 个样本点上能产生的最大二分数量， $k$ 表示不能满足完全分类情形的样本点数。

让我们来探讨一下，当 $k$ 确定时， $m_{H} (N)$ 的最大可能取值，下面使用一个例子来进行探讨。

Example: Break Point $k = 2$

根据 break point 的定义

当样本数为 $N = 1$ 时，需要满足样本完全二分的情况，因此 $m_{H} (1) = 2^{1} = 2$
当样本数为 $N = 2$ 时，不可满足样本完全二分的情况，因此 $m_{H} (2) < 2^{2} = 4$ ，最多为 $m_{H} (2) = 3$
当样本数为 $N = 3$ 时，同样不可满足样本完全二分的情况，因此 $m_{H} (3) < 2^{3} = 8$ ，但是由于 $m_{H} (2)$ 已经存在上限 $m_{H} (2) < 4$ ，因此 $m_{H} (3)$ 的值会有更严格的上限。根据实验可以得到 $m_{H} (3) < 5$ 。

$k = 2$ 时 $m_{H} (3) < 5$ 的含义是：当样本数为 $N = 3$ 时，假设空间最多有 $4$ 种分类结果，使得对任意 $k = 2$ 个样本，不能满足完全分类的情形。

以上的分析比较晦涩难懂，我们使用图片重新说明一下。可以看到当只有 $1, 2, 3$ 种分类结果的时候，任意两个样本都不会出现完全分类的情形。当有 $4$ 种分类结果的时候，可能会出现有两个样本完全分类的情况，也可能不出现这种情况。而有 $5$ 种分类结果的时候，始终会出现有两个样本完全分类的情况。因此，二分类结果最多只能有 $4$ 种。

《机器学习基石》6-Theory of Generalization

Bounding Function: Basic Cases

我们将刚才讨论的东西起一个名字，叫做 bounding function $B (N, k)$ ，表示当 break point 为 $k$ 的时候， $m_{H} (N)$ 的最大可能的值。

那么经过前面的例子，我们可以得到一些结论：

$k = 1$ 时， $B (N, k) = 1$ （任意一个点都不能被完全分类，因此只能有一种分类结果）
$k > N$ 时， $B (N, k) = 2^{N}$ （总共就 $N$ 个点，最多就 $2^{N}$ 种分类结果）；
$k = N$ 时， $B (N, k) = 2^{N} - 1$ （减去一种分类结果，则任意 $N$ 个点不会被完全分类）；
$B (3, 2) = 4$ （刚才的例子）；

于是我们得到了下面这个表格：

\begin{array}{clcr} k \\ B (N, k) & 1 & 2 & 3 & 4 & 5 & 6 & \dots \\ 1 & 1 & 2 & 2 & 2 & 2 & 2 & \dots \\ 2 & 1 & 3 & 4 & 4 & 4 & 4 & \dots \\ 3 & 1 & 4 & 7 & 8 & 8 & 8 & \dots \\ 4 & 1 & 15 & 16 & 16 & \dots \\ 5 & 1 & 31 & 32 & \dots \\ 6 & 1 & 63 & \dots \\ ⋮ & ⋮ & ⋱ \end{array}

Bounding Function: Inductive Cases

至此，我们已经解决了一半的问题。不过，表格里打问号的才是我们要讨论的重点，我们试着通过递推的方法得到这些值。

Dichotomies of $B (4, 3)$

我们用计算机列举出 $B (4, 3)$ 的所有可能，同时将这些结果重新排列，如下图所示：
《机器学习基石》6-Theory of Generalization

其中橙色的表示前 $3$ 个样本点成对出现，数量记为 $2 α$ ，绿色的表示前 $3$ 个样本点单独出现，数量记为 $β$ ，那么有 $B (4, 3) = 2 α + β$ 。

$B (4, 3)$ 表示所有 $4$ 个样本点中，任意 $3$ 个都不会被完全分类。那么去掉第 $4$ 个样本，可以得到：

$α + β$ 中，前 $3$ 个样本点中的任意 $3$ 个不会被完全分类， $α + β \leq B (3, 3)$ ；
$α$ 中，前 $3$ 个样本点中的任意 $2$ 个不会被完全分类， $α \leq B (3, 2)$ （因此第 $4$ 个点会被完全分类）；

因此：

B (4, 3) = 2 α + β = (α + β) + α \leq B (3, 3) + B (3, 2)

推广到其他：

B (N, k) \leq B (N - 1, k) + B (N - 1, k - 1)

数学归纳法可以证明：

B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})

因此可以得到，当 break point $k$ 存在时

m_{H} (N) \leq B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})

m_{H} (N)

是

N

的多项式函数。

Mathematical Induction

下面使用数学归纳法证明 $B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})$

$k = 1$ 时，不等式恒成立，因此只讨论 $k \geq 2$ 的情形；
$N = 1$ 时，不等式成立；
假设 $N = N o$ 时，不等式成立，下面证明 $N = N o + 1$ 时，不等式成立。

\begin{aligned} B (N_{o} + 1, k) & \leq B (N_{o}, k) + B (N_{o}, k - 1) \\ \leq \sum_{i = 0}^{k - 1} (\binom{N_{o}}{i}) + \sum_{i = 0}^{k - 2} (\binom{N_{o}}{i}) \\ = 1 + \sum_{i = 1}^{k - 1} (\binom{N_{o}}{i}) + \sum_{i = 1}^{k - 1} (\binom{N_{o}}{i - 1}) \\ = 1 + \sum_{i = 1}^{k - 1} [(\binom{N_{o}}{i}) + (\binom{N_{o}}{i - 1})] \\ = 1 + \sum_{i = 1}^{k - 1} (\binom{N_{o} + 1}{i}) = \sum_{i = 0}^{k - 1} (\binom{N_{o} + 1}{i}) \end{aligned}

A Pictorial Proof

于是利用有限的 $m_{H} (N)$ 来替换无限的 $M$ ，得到 $H$ 遇到Bad Sample的概率上界：

P_{D} [B A D D] \leq 2 m_{H} (N) \cdot e x p (- 2 ϵ^{2} N)

用更加精准的数学符号来表示上面的不等式：

P [\exists h \in H s.t. | E_{i n} (h) - E_{o u t} (h) | > ϵ] \leq 2 m_{H} (N) \cdot e x p (- 2 ϵ^{2} N)

但事实上上面的不等式是不严谨的，因为 $m_{H} (N)$ 描述的是 $H$ 作用于数据量为 $N$ 的资料 $D$ 有效的方程数，因此 $H$ 当中每一个 $h$ 作用于 $D$ 都能算出一个 $E_{i n}$ 来，一共能有 $m_{H} (N)$ 个不同的 $E_{i n}$ ，是一个有限的数。但在out of sample的世界里(总体)，往往存在无限多个点，平面中任意一条直线，随便转一转动一动，就能产生一个不同的 $E_{o u t}$ 来。 $E_{i n}$ 的可能取值是有限个的，而 $E_{o u t}$ 的可能取值是无限的，无法直接套用union bound，我们得先把上面那个无限多种可能的 $E_{o u t}$ 换掉。

下面涉及到许多数学公式，先挖个坑，有时间补上。