林轩田机器学习基石笔记（第26节）——VC Dimension

复习上限函数

在第23-24节中，我们获得了成长函数的上限函数，并且上限函数又被被多项式 $N^{k - 1}$ 所包含住，即 $\sum_{i = 0}^{k - 1}$ 会被 $N^{k - 1}$ 所包含住，如下图：
林轩田机器学习基石笔记（第26节）——VC Dimension

$\sum_{i = 0}^{k - 1}$ 与 $N^{k - 1}$ 的关系如下面两个表所示：
林轩田机器学习基石笔记（第26节）——VC Dimension

基于以上关系，所有的成长函数都将会被 $N^{k - 1}$ 所包含住，即今后我们写成长函数的时候不必再一个个分开来写，而是直接写成 $N^{k - 1}$

复习VC Bound

在将VC Bound的时候我们推出如下公式：
林轩田机器学习基石笔记（第26节）——VC Dimension
因为 $m_{H} (2 N)$ 是成长函数，当N足够大，且 $k \geq 3$ 的时候，成长函数最终又被多项式 $N^{k - 1}$ 包含住，所以上面的式子可以用 $N^{k - 1}$ 加以替换，结果如下：

VC Dimension

那么什么是VC Dimension呢？所谓的VC Dimension其实就是break point之前的那个点，比如break point为k，那么k-1就是VC Dimension，用 $d_{V C} = k - 1$ 来表示。

当 $N \leq d_{V C}$ ，则可以被hypothesis shatter，因为肯定能够做出 $2^{N}$ 条线来分割所有的hypothesis
当 $N > d_{V C}$ ，则肯定不能被hypothesis shatter

因为 $d_{V C} = k - 1$ ，所以又有：
林轩田机器学习基石笔记（第26节）——VC Dimension

现在我们来回顾之前介绍到的四种成长函数对应的四种VC Dimension，分别如下：
林轩田机器学习基石笔记（第26节）——VC Dimension
观察上图会发现由于convex sets没有break point，因此VC Dimension会趋向于无穷；之前我们一直找不到上限函数的2D perceptions的上限函数也被我们成功找到了，即 $N^{3}$ .

找到VC Dimension有什么意义呢？

我们知道机器学习的最终目的是从Hypothesis Set中找到一条合适的g，但是Hypothesis Set中可能有很多备选的g，结果会造成程序一直不停的跑无法停止下来。
所以我们需要找到一个点break point，当程序运行到该处的时候能够停止下来。所以说有break point的Hypothesis Set才是好的Hypothesis Set。
那么现在我们也可以说只要有VC Dimension的Hypothesis Set就是好的Hypothesis Set。

本节到此结束

===========================懵逼分割线===========================

欢迎大家加入Q群讨论：463255841

===========================懵逼分割线===========================