Restriction of Break Point

上次我们说到,需要探究 “break point” kmH(N) 之间的关系。回顾一下,mH(N) 表示假设空间在 N 个样本点上能产生的最大二分数量,k 表示不能满足完全分类情形的样本点数。

让我们来探讨一下,当 k 确定时,mH(N) 的最大可能取值,下面使用一个例子来进行探讨。

Example: Break Point k=2

根据 break point 的定义

  • 当样本数为 N=1 时,需要满足样本完全二分的情况,因此 mH(1)=21=2
  • 当样本数为 N=2 时,不可满足样本完全二分的情况,因此 mH(2)<22=4,最多为 mH(2)=3
  • 当样本数为 N=3 时,同样不可满足样本完全二分的情况,因此 mH(3)<23=8,但是由于 mH(2) 已经存在上限 mH(2)<4,因此 mH(3) 的值会有更严格的上限。根据实验可以得到 mH(3)<5

k=2mH(3)<5 的含义是:当样本数为 N=3 时,假设空间最多有 4 种分类结果,使得对任意 k=2 个样本,不能满足完全分类的情形。

以上的分析比较晦涩难懂,我们使用图片重新说明一下。可以看到当只有 1,2,3 种分类结果的时候,任意两个样本都不会出现完全分类的情形。当有 4 种分类结果的时候,可能会出现有两个样本完全分类的情况,也可能不出现这种情况。而有 5 种分类结果的时候,始终会出现有两个样本完全分类的情况。因此,二分类结果最多只能有 4 种。

《机器学习基石》6-Theory of Generalization
《机器学习基石》6-Theory of Generalization
《机器学习基石》6-Theory of Generalization
《机器学习基石》6-Theory of Generalization

Bounding Function: Basic Cases

我们将刚才讨论的东西起一个名字,叫做 bounding function B(N,k),表示当 break point 为 k 的时候,mH(N) 的最大可能的值。

那么经过前面的例子,我们可以得到一些结论:

  • k=1 时,B(N,k)=1(任意一个点都不能被完全分类,因此只能有一种分类结果)
  • k>N 时,B(N,k)=2N(总共就 N 个点,最多就 2N 种分类结果);
  • k=N 时,B(N,k)=2N1(减去一种分类结果,则任意 N 个点不会被完全分类);
  • B(3,2)=4(刚才的例子);

于是我们得到了下面这个表格:

kB(N,k)123456112222221344443147888411516165131326163

Bounding Function: Inductive Cases

至此,我们已经解决了一半的问题。不过,表格里打问号的才是我们要讨论的重点,我们试着通过递推的方法得到这些值。

Dichotomies of B(4,3)

我们用计算机列举出 B(4,3) 的所有可能,同时将这些结果重新排列,如下图所示:
《机器学习基石》6-Theory of Generalization

其中橙色的表示前 3 个样本点成对出现,数量记为 2α,绿色的表示前 3 个样本点单独出现,数量记为 β,那么有 B(4,3)=2α+β

B(4,3) 表示所有 4 个样本点中,任意 3 个都不会被完全分类。那么去掉第 4 个样本,可以得到:

  • α+β 中,前 3 个样本点中的任意 3 个不会被完全分类,α+βB(3,3)
  • α 中,前 3 个样本点中的任意 2 个不会被完全分类,αB(3,2)(因此第 4 个点会被完全分类);
    《机器学习基石》6-Theory of Generalization
    《机器学习基石》6-Theory of Generalization

因此:

B(4,3)=2α+β=(α+β)+αB(3,3)+B(3,2)

推广到其他:

B(N,k)B(N1,k)+B(N1,k1)

数学归纳法可以证明:

B(N,k)i=0k1(Ni)

因此可以得到,当 break point k 存在时

mH(N)B(N,k)i=0k1(Ni)
mH(N)N 的多项式函数。

Mathematical Induction

下面使用数学归纳法证明 B(N,k)i=0k1(Ni)

  • k=1 时,不等式恒成立,因此只讨论 k2 的情形;
  • N=1 时,不等式成立;
  • 假设 N=No 时,不等式成立,下面证明 N=No+1 时,不等式成立。

B(No+1,k)B(No,k)+B(No,k1) i=0k1(Noi)+i=0k2(Noi) =1+i=1k1(Noi)+i=1k1(Noi1) =1+i=1k1[(Noi)+(Noi1)] =1+i=1k1(No+1i)=i=0k1(No+1i)

A Pictorial Proof

于是利用有限的 mH(N) 来替换无限的 M,得到 H 遇到Bad Sample的概率上界:

PD[BAD D]2mH(N)exp(2ϵ2N)

用更加精准的数学符号来表示上面的不等式:

P[hH s.t. |Ein(h)Eout(h)|>ϵ]2mH(N)exp(2ϵ2N)

但事实上上面的不等式是不严谨的,因为 mH(N) 描述的是 H 作用于数据量为 N 的资料 D 有效的方程数,因此 H 当中每一个 h 作用于 D 都能算出一个 Ein 来,一共能有 mH(N) 个不同的 Ein,是一个有限的数。但在out of sample的世界里(总体),往往存在无限多个点,平面中任意一条直线,随便转一转动一动,就能产生一个不同的 Eout 来。Ein 的可能取值是有限个的,而 Eout 的可能取值是无限的,无法直接套用union bound,我们得先把上面那个无限多种可能的 Eout 换掉。

下面涉及到许多数学公式,先挖个坑,有时间补上。

相关文章: