Restriction of Break Point
上次我们说到,需要探究 “break point” 与 之间的关系。回顾一下, 表示假设空间在 个样本点上能产生的最大二分数量, 表示不能满足完全分类情形的样本点数。
让我们来探讨一下,当 确定时, 的最大可能取值,下面使用一个例子来进行探讨。
Example: Break Point
根据 break point 的定义
- 当样本数为 时,需要满足样本完全二分的情况,因此
- 当样本数为 时,不可满足样本完全二分的情况,因此 ,最多为
- 当样本数为 时,同样不可满足样本完全二分的情况,因此 ,但是由于 已经存在上限 ,因此 的值会有更严格的上限。根据实验可以得到 。
时 的含义是:当样本数为 时,假设空间最多有 种分类结果,使得对任意 个样本,不能满足完全分类的情形。
以上的分析比较晦涩难懂,我们使用图片重新说明一下。可以看到当只有 种分类结果的时候,任意两个样本都不会出现完全分类的情形。当有 种分类结果的时候,可能会出现有两个样本完全分类的情况,也可能不出现这种情况。而有 种分类结果的时候,始终会出现有两个样本完全分类的情况。因此,二分类结果最多只能有 种。
Bounding Function: Basic Cases
我们将刚才讨论的东西起一个名字,叫做 bounding function ,表示当 break point 为 的时候, 的最大可能的值。
那么经过前面的例子,我们可以得到一些结论:
- 时,(任意一个点都不能被完全分类,因此只能有一种分类结果)
- 时,(总共就 个点,最多就 种分类结果);
- 时,(减去一种分类结果,则任意 个点不会被完全分类);
- (刚才的例子);
于是我们得到了下面这个表格:
Bounding Function: Inductive Cases
至此,我们已经解决了一半的问题。不过,表格里打问号的才是我们要讨论的重点,我们试着通过递推的方法得到这些值。
Dichotomies of
我们用计算机列举出 的所有可能,同时将这些结果重新排列,如下图所示:
其中橙色的表示前 个样本点成对出现,数量记为 ,绿色的表示前 个样本点单独出现,数量记为 ,那么有 。
表示所有 个样本点中,任意 个都不会被完全分类。那么去掉第 个样本,可以得到:
- 中,前 个样本点中的任意 个不会被完全分类,;
-
中,前 个样本点中的任意 个不会被完全分类,(因此第 个点会被完全分类);
因此:
推广到其他:
数学归纳法可以证明:
因此可以得到,当 break point 存在时
Mathematical Induction
下面使用数学归纳法证明
- 时,不等式恒成立,因此只讨论 的情形;
- 时,不等式成立;
- 假设 时,不等式成立,下面证明 时,不等式成立。
A Pictorial Proof
于是利用有限的 来替换无限的 ,得到 遇到Bad Sample的概率上界:
用更加精准的数学符号来表示上面的不等式:
但事实上上面的不等式是不严谨的,因为 描述的是 作用于数据量为 的资料 有效的方程数,因此 当中每一个 作用于 都能算出一个 来,一共能有 个不同的 ,是一个有限的数。但在out of sample的世界里(总体),往往存在无限多个点,平面中任意一条直线,随便转一转动一动,就能产生一个不同的 来。 的可能取值是有限个的,而 的可能取值是无限的,无法直接套用union bound,我们得先把上面那个无限多种可能的 换掉。
下面涉及到许多数学公式,先挖个坑,有时间补上。