0. 前言
上一课讲到了过拟合。什么是过拟合、过拟合什么时候发生、怎么处理过拟合等。其中有一种解决过拟合的方法是Regularized,这一节课我们将会讲解这种方法。
1. Regularization Hypothesis
- 我们知道,多阶多项式包含低阶多项式。
那么在高阶多项式中加入一些限定条件,使它近似为低阶多项式即可。这种函数近似曾被称之为不适定问题(ill-posed problem)。 - 如何进行近似呢?首先十阶多项式和二阶多项式的形式为:
若果我们将变成0,那么高阶就会变成了低阶。 - 我们为什么要这么做呢?直接使用低阶多项式不是更加方便吗?这样做的目的是拓展我们的视野,为即将讨论的问题做准备。刚刚我们讨论的限制是高阶部分的权重w限制为0,这是比较苛刻的一种限制。下面,我们把这个限制条件变得更宽松一点,即令任意8个权重w为0,并不非要限定为0,这个Looser Constraint可以写成:
也就只是限定了w不为0的个数,并不限定必须是高阶的w。这种hypothesis记为,称为sparse hypothesis set,它与和的关系为: - 事实上这一种方法是NP-hard的,我们没法知道哪几项为0比较好。所以,还要转换为另一种易于求解的限定条件。那么,我们寻找一种更容易求解的宽松的限定条件Softer Constraint,即:
其中,C是常数,也就是说,所有的权重w的平方和的大小不超过C,我们把这种hypothesis sets记为H(C)。 - 与H(C)的关系是,它们之间有重叠,有交集的部分,但是没有完全包含的关系,也不一定相等。对应H(C),C值越大,限定的范围越大,即越宽松。当C无限大的时候,即限定条件非常宽松,相当于没有加上任何限制,就与H10没有什么两样。H(C)称为regularized hypothesis set,这种形式的限定条件是可以进行求解的,我们把求解的满足限定条件的权重w记为。接下来就要探讨如何求解。
2. Weight Decay Regularization
- 我们的目的是:
- 采用梯度下降算法,以及拉格朗日求约束条件下的极值问题,得到最优结果需要满足条件:
其中就是拉格朗日系数,我们的目标就变成了求解上述公式。
已知∇Ein是Ein对wREG的导数,而2λNwREG也可以看成是λNw2REG的导数。那么平行等式左边可以看成一个函数的导数,导数为零,即求该函数的最小值。也就是说,问题转换为最小化该函数: -
的值也会影响得到的曲线:
一般取比较小的值就能达到良好的拟合效果,过大过小都有问题,但究竟取什么值,要根据具体训练数据和模型进行分析与调试。
3. Regularization and VC Theory
- VC维与Regularization的关系:根据VC Dimension理论,整个hypothesis set的,这是因为所有的w都考虑了,没有任何限制条件。而引入限定条件的情况下,当时,有
当时,此时VC维是最大的,随着的增加而不断减小。
4. General Regularizer
- 那么通用的Regularizers,即Ω(w)(Ω(w)为的差值),应该选择什么样的形式呢?一般地,我们会朝着目标函数的方向进行选取。有三种方式:
接下来,介绍两种Regularizer:L2和L1: - 下面来看一下λ如何取值,首先,若stochastic noise不同,那么一般情况下,λ取值有如下特点:
从图中可以看出,stochastic noise越大,λ越大。
另一种情况,不同的deterministic noise,λ取值有如下特点:
从这两张图片可以看出,噪声越大或者目标函数复杂度越高,那么所需要的就越大,得到的结果也更差。但是大多数情况下,noise是不可知的,这种情况下如何选择λ?这部分内容,我们下节课将会讨论。
5. 总结
这节课主要讲解了Regularization,我们在高阶多项式中加上限制条件之后,将问题转化为最小化问题。其实这一过程就是减小VC维的过程。最后,介绍regularization是通用的机器学习工具,设计方法通常包括target-dependent,plausible,friendly等等。选取合适的能够得到最佳的,但是如何找到最佳的仍是个问题,下节课我们将会介绍。