【林轩田】机器学习基石（六）——泛化理论

ppt
video

Lecture 6: Theory of Generalization

6.1 Restriction of Break Point 断点的限制

这一小节提出了一个问题，当我们最小的断点 $k = 2$ ，时，我们能推出什么？

N=1时， $x_{1}$ 是圈、叉都可以，这样有 $m_{H} (1) = 2$
N=2时，注意到 $k = 2$ 是断点，所以 $m_{H} (2) \leq 2^{2} = 4$ ， $m_{H} (2)$ 最大为3
N=3时，注意到 $k = 2$ 是断点，所以 $x_{1}, x_{2}, x_{3}$ 中的任两个点都是不能shatter的，林教授以图示的方式说明了，在任两个点都不能shatter的情况下， $m_{H} (3)$ 最大为4

注意到，这里 $m_{H} () 3$ 已经远小于 $2^{3}$ 了。
即，当 $N > k$ 时，断点 $k$ 可以极大地限制 $m_{H} (N)$ 的增长。
【林轩田】机器学习基石（六）——泛化理论
更进一步，如果上图成立，哈哈，霍夫丁不等式的右边就会接近0，我们无限 $M$ 的学习可行性也就被论证了。

6.2 Bounding Function: Basic Cases 上界函数(基本案例)

我们这里给出一个新的定义，叫做上界函数， $B (N, k)$ ，它有两个参数, $N$ 和 $k$ ，它的含义是：在断点为 $k$ 时， $m_{H} (N)$ 的最大可能值。

通过这个上界函数，我们隐藏了 $H$ 的细节，也就是不论我们的假设函数 $h$ 是什么，只要 $N$ 和 $k$ 定了， $m_{H} (N)$ 的上界就不会变。
它的组合数量解释如下：一个最大长度为N的向量，每个维度有圈和叉两个值，这个向量的任意长度为k的子向量都不shatter，求问这样的向量最多一共多少个？

这样的话，我们的新目标就是下面的不等式：

林教授给出了一个表格来显示Bounding Function

我们把这个表分为了几块

标号为1这个块，当 $k = 1$ 时， $B (N, 1) = 1$
标号为2这个块，当 $N < k$ 时， $B (N, k) = 2^{N}$
标号为3这个块，当 $N = k$ 时， $B (N, k) = 2^{N} - 1$
标号为4这个块是最重要的，我们填了一个值，就是 $B (3, 2) = 4$ ，这是我们上一节课计算得到的。

6.3 Bounding Function： Inductive Cases 归纳案例

接下来我们考虑图片中 $B (4, 3)$ 的值。
首先，我们使用计算机穷举，得到 $B (4, 3)$ 的所有结果，一共有11种。
我们将 $B (4, 3)$ 的所有二分重新排列一下，得到如下:

可以看到，橘色的都是成双成对的，橘色的 $x_{1}, x_{2}, x_{3}$ 每对都一样，紫色的是形单影只的。

令

B (4, 3) = 11 = 2 * α + β

可以看到图中左式的 $α + β$ 就是 $x_{1}, x_{2}, x_{3}$ 3个点不shatter的结果，一共有7种，
即

α + β \leq B (3, 3)

【林轩田】机器学习基石（六）——泛化理论

因为还有 $x_{4}$ 的存在，为了避免 $x_{1}, x_{2}, x_{3}$ 中的任两个与 $x_{4}$ shatter了， $/ a l p h a$ 中的任两个也不能shatter。
所以

α \leq B (3, 2)

所以，加起来，

B (4, 3) \leq B (3, 3) + B (3, 2)

推断一下，就发现了如下规律：
【林轩田】机器学习基石（六）——泛化理论

整理一下，规律如下：
【林轩田】机器学习基石（六）——泛化理论

这样就可以证明，在存在固定断点 $k$ 的情况下， $B (N, k)$ 的上限是多项式形式的！！

6.4 A Pictorial Proof 图示法证明

最开始，我们根据霍夫丁不等式，给出的期望坏事情概率上界为

P [| E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq 2 * M * e x p (- 2 * N * ϵ^{2})

因为

M

可能是无限大的，这样右边界就求不出来了，求不出来，我们机器学习的可行性也就无法证明；
所以，我们用了一些手段，以有限的种类，代替无限的数量，将不等式变成了

P [| E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq 2 * m_{H} * e x p (- 2 * N * ϵ^{2})

这里，

m_{H}

是某个有界的值。又经过一些推导，我们发现

m_{H}

和样本数量

N

还有断点

k

的值有关。

当不存在断点时， $m_{H} (N) = 2^{N}$
当存在断点k时， $m_{H} (N) = O (N^{k - 1})$

但是，虽然我们最终希望得到的不等式是这样的：

P [\exists h \in H, s . t . | E_{o u t} (h) - E_{i n} (h) | > ϵ] \leq 2 * m_{H} (N) * e x p (- 2 * N * ϵ^{2})

实际上，当 $N$ 足够大时，经过计算后，不等式却是这样的

P [\exists h \in H, s . t . | E_{o u t} (h) - E_{i n} (h) | > ϵ] \leq 2 * 2 m_{H} (2 N) * e x p (- 2 * \frac{1}{16} * N * ϵ^{2})

接下来，我们来证明上式。

第一步，使用 $E_{i n}^{^{'}}$ 代替 $E_{o u t}$

【林轩田】机器学习基石（六）——泛化理论

注意到 $E_{i n} (h)$ 是有限多的， $E_{o u t} (h)$ 是无限多的。
我们需要替换掉无限多的 $E_{o u t}$ ，方法是我们假设在新的数据 $D^{'}$ 上得到 $E_{i n}^{‘}$ 。因为我们的 $E_{o u t}$ 是完整的分布， $E_{i n}$ 和 $E_{o u t}$ 若相差甚远，有一半的概率 $E_{i n}^{‘}$ 和 $E_{i n}$ 也是相差甚远的。
所以我们可以得到下式：

所以

P [\exists h \in H s . t . | E_{i n} (h) - E_{o u t} (h) | > ϵ] \leq

2 * P [\exists h \in H s . t . | E_{i n} (h) - E_{i n}^{^{'}} (h) | > \frac{ϵ}{2}]

第二步：按种类分解 $H$

【林轩田】机器学习基石（六）——泛化理论

我们知道 $E_{i n}$ 最多有 $m_{H} (N)$ 种假设函数， $E_{i n}^{^{'}}$ 最多也有 $m_{H} (N)$ 种假设函数。
因为 $D 和 D^{^{'}}$ 样本可能重叠，所以 $E_{i n} 和 E_{i n}^{^{'}}$ 最多有 $m_{H} (2 N)$ 种假设函数

B A D \leq 2 * P [\exists h \in H s . t . | E_{i n} (h) - E_{i n}^{^{'}} (h) | > \frac{ϵ}{2}]

因为我们一个 $h$ 出现 $B A D$ 的几率是上式，使用 $u n i o n b o u n d$ 联结假设空间 $H$ 中所有出现 $B A D$ 的几率

B A D \leq 2 * m_{H} (N) * P [f i x e d h s . t . | E_{i n} (h) - E_{i n}^{^{'}} (h) | > \frac{ϵ}{2}]

使用无替代的霍夫丁不等式

【林轩田】机器学习基石（六）——泛化理论

| E_{i n} - E_{i n}^{^{'}} | > \frac{ϵ}{2} ⟺ \frac{| E_{i n} - E_{i n}^{^{'}} |}{2} > \frac{ϵ}{4}

⟺ | E_{i n} - \frac{E_{i n} + E_{i n}^{^{'}}}{2} | > \frac{ϵ}{4}

【林轩田】机器学习基石（六）——泛化理论

上述的证明，其实我充满了疑问，但是总之，证明来证明去，我们得到了一个非常有用的东东！！

【林轩田】机器学习基石（六）——泛化理论

最终，我们论证了二维平面，感知器学习的可行性！

Lecture 6: Theory of Generalization

6.1 Restriction of Break Point 断点的限制

6.2 Bounding Function: Basic Cases 上界函数(基本案例)

6.3 Bounding Function： Inductive Cases 归纳案例

6.4 A Pictorial Proof 图示法证明

第一步，使用E′inEin′代替EoutEout

第二步：按种类分解HH

使用无替代的霍夫丁不等式

第一步，使用 $E_{i n}^{^{'}}$ 代替 $E_{o u t}$

第二步：按种类分解 $H$