ppt
video

Lecture 6: Theory of Generalization

6.1 Restriction of Break Point 断点的限制

这一小节提出了一个问题,当我们最小的断点k=2,时,我们能推出什么?

  • N=1时,x1是圈、叉都可以,这样有mH(1)=2
  • N=2时,注意到k=2是断点,所以mH(2)22=4mH(2)最大为3
  • N=3时,注意到k=2是断点,所以x1,x2,x3中的任两个点都是不能shatter的,林教授以图示的方式说明了,在任两个点都不能shatter的情况下,mH(3)最大为4
  • 【林轩田】机器学习基石(六)——泛化理论

注意到,这里mH()3已经远小于23了。
即,当N>k时,断点k可以极大地限制mH(N)的增长。
【林轩田】机器学习基石(六)——泛化理论
更进一步,如果上图成立,哈哈,霍夫丁不等式的右边就会接近0,我们无限M的学习可行性也就被论证了。

6.2 Bounding Function: Basic Cases 上界函数(基本案例)

我们这里给出一个新的定义,叫做上界函数,B(N,k),它有两个参数,Nk,它的含义是:在断点为k时,mH(N)的最大可能值。

  • 通过这个上界函数,我们隐藏了H的细节,也就是不论我们的假设函数h是什么,只要Nk定了,mH(N)的上界就不会变。
  • 它的组合数量解释如下:一个最大长度为N的向量,每个维度有圈和叉两个值,这个向量的任意长度为k的子向量都不shatter,求问这样的向量最多一共多少个?

    这样的话,我们的新目标就是下面的不等式:
    【林轩田】机器学习基石(六)——泛化理论
    林教授给出了一个表格来显示Bounding Function
    【林轩田】机器学习基石(六)——泛化理论

我们把这个表分为了几块

  • 标号为1这个块,当k=1时,B(N,1)=1
  • 标号为2这个块,当N<k时,B(N,k)=2N
  • 标号为3这个块,当N=k时,B(N,k)=2N1
  • 标号为4这个块是最重要的,我们填了一个值,就是B(3,2)=4,这是我们上一节课计算得到的。

6.3 Bounding Function: Inductive Cases 归纳案例

  • 接下来我们考虑图片中B(4,3)的值。
  • 首先,我们使用计算机穷举,得到B(4,3)的所有结果,一共有11种。
  • 我们将B(4,3)的所有二分重新排列一下,得到如下:
    【林轩田】机器学习基石(六)——泛化理论

可以看到,橘色的都是成双成对的,橘色的x1,x2,x3每对都一样,紫色的是形单影只的。


B(4,3)=11=2α+β

【林轩田】机器学习基石(六)——泛化理论

可以看到图中左式的α+β就是x1,x2,x33个点不shatter的结果,一共有7种,

α+βB(3,3)

【林轩田】机器学习基石(六)——泛化理论

因为还有x4的存在,为了避免x1,x2,x3中的任两个与x4shatter了,/alpha中的任两个也不能shatter。
所以

αB(3,2)

所以,加起来,

B(4,3)B(3,3)+B(3,2)

推断一下,就发现了如下规律:
【林轩田】机器学习基石(六)——泛化理论

整理一下,规律如下:
【林轩田】机器学习基石(六)——泛化理论

这样就可以证明,在存在固定断点k的情况下,B(N,k)的上限是多项式形式的!!

6.4 A Pictorial Proof 图示法证明

最开始,我们根据霍夫丁不等式,给出的期望坏事情概率上界为

P[|Eout(g)Ein(g)|>ϵ]2Mexp(2Nϵ2)

因为M可能是无限大的,这样右边界就求不出来了,求不出来,我们机器学习的可行性也就无法证明;
所以,我们用了一些手段,以有限的种类,代替无限的数量,将不等式变成了
P[|Eout(g)Ein(g)|>ϵ]2mHexp(2Nϵ2)

这里,mH是某个有界的值。又经过一些推导,我们发现mH和样本数量N还有断点k的值有关。

  • 当不存在断点时,mH(N)=2N
  • 当存在断点k时,mH(N)=O(Nk1)

但是,虽然我们最终希望得到的不等式是这样的:

P[hH,s.t.|Eout(h)Ein(h)|>ϵ]2mH(N)exp(2Nϵ2)

实际上,当N足够大时,经过计算后,不等式却是这样的

P[hH,s.t.|Eout(h)Ein(h)|>ϵ]22mH(2N)exp(2116Nϵ2)

接下来,我们来证明上式。

第一步,使用Ein代替Eout

【林轩田】机器学习基石(六)——泛化理论

  • 注意到Ein(h)是有限多的,Eout(h)是无限多的。
  • 我们需要替换掉无限多的Eout,方法是我们假设在新的数据D上得到Ein。因为我们的Eout是完整的分布,EinEout若相差甚远,有一半的概率EinEin也是相差甚远的。
    所以我们可以得到下式:
    【林轩田】机器学习基石(六)——泛化理论

所以

P[hHs.t.|Ein(h)Eout(h)|>ϵ]

2P[hHs.t.|Ein(h)Ein(h)|>ϵ2]

第二步:按种类分解H

【林轩田】机器学习基石(六)——泛化理论

  • 我们知道Ein最多有mH(N)种假设函数,Ein最多也有mH(N)种假设函数。

  • 因为DD样本可能重叠,所以EinEin最多有mH(2N)种假设函数

BAD2P[hHs.t.|Ein(h)Ein(h)|>ϵ2]

因为我们一个h出现BAD的几率是上式,使用unionbound联结假设空间H中所有出现BAD的几率

BAD2mH(N)P[fixed h s.t.|Ein(h)Ein(h)|>ϵ2]

使用无替代的霍夫丁不等式

【林轩田】机器学习基石(六)——泛化理论

|EinEin|>ϵ2|EinEin|2>ϵ4

|EinEin+Ein2|>ϵ4

【林轩田】机器学习基石(六)——泛化理论

上述的证明,其实我充满了疑问,但是总之,证明来证明去,我们得到了一个非常有用的东东!!

【林轩田】机器学习基石(六)——泛化理论

最终,我们论证了二维平面,感知器学习的可行性!

相关文章:

  • 2021-11-15
  • 2021-10-01
  • 2021-08-23
  • 2022-01-02
  • 2021-04-19
  • 2021-11-22
  • 2021-04-02
猜你喜欢
  • 2021-07-16
  • 2021-05-18
  • 2022-12-23
  • 2021-06-01
  • 2021-11-04
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案