一、偏倚(bias)和方差(variance)

在讨论线性回归时,我们用一次线性函数过拟合与欠拟合数学原理对训练样本进行拟合(如图1所示);然而,我们可以通过二次多项式函数对训练样本进行拟合(如图2所示),函数对样本的拟合程序看上去更“好”;当我们利用五次多项式函数对样本进行拟合(如图3所示),函数通过了所有样本,成为了一次“完美”的拟合。

过拟合与欠拟合数学原理过拟合与欠拟合数学原理过拟合与欠拟合数学原理


图3建立的模型,在训练集中通过x可以很好的预测y,然而,我们却不能预期该模型能够很好的预测训练集外的数据。换句话说,这个模型没有很好的泛化能力。因此,模型的泛化误差(generalization error)不仅包括其在样本上的期望误差,还包括在训练集上的误差。

图1和图3中的模型都有较大的泛化误差,然而他们的误差原因却不相同。图1建立了一个线性模型,但是该模型并没有精确的捕捉到训练集数据的结构,我们称图1有较大的偏倚(bias),也称欠拟合;图3通过5次多项式函数很好的对样本进行了拟合,然而,如果将建立的模型进行泛化,并不能很好的对训练集之外数据进行预测,我们称图3有较大的 ,也称过拟合。
通常,在偏倚和方差之间,这样一种规律:如果模型过于简单,其具有大的偏倚,而如果模型过于复杂,它就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。

二、预备知识

首先我们先介绍两个非常有用的引理:

引理1:一致限(the union bound)过拟合与欠拟合数学原理为k个不同的事件(不一定相互独立),那么有:

过拟合与欠拟合数学原理

一致限说明:k个事件中任一个事件发生的概率小于等于这k个事件发生的概率和(等号成立的条件为这k个事件相两两互斥)。

引理2:Hoeffding 不等式(Hoeffding inequality)过拟合与欠拟合数学原理为m个独立同分布的随机变量,由参数为 的伯努利分布(即过拟合与欠拟合数学原理)生成。令过拟合与欠拟合数学原理,为这些随机变量的均值,对于任意过拟合与欠拟合数学原理0” alt=”“>有:

过拟合与欠拟合数学原理\gamma)\le2exp(-2\gamma^2m)” alt=”“>

过拟合与欠拟合数学原理1-2exp(-2\gamma^2m)” alt=”“>

在机器学习中,引理2称为Chernoff边界(Chernoff bound),它说明:假设我们用随机变量的均值过拟合与欠拟合数学原理去估计参数过拟合与欠拟合数学原理,估计的参数和实际参数的差超过一个特定数值的概率有一确定的上界,并且随着样本量m的增大,过拟合与欠拟合数学原理过拟合与欠拟合数学原理很接近的概率也越来越大。

通过以上两个引理,我们能够引出机器学习中很重要结论。
为简单起见,我们只讨论二分类问题,即类标签为 过拟合与欠拟合数学原理

假设给定的训练集为过拟合与欠拟合数学原理,且各训练样本过拟合与欠拟合数学原理独立同分布,皆为某个特定分布D生成。对于一个假设函数(hypothesis),定义训练误差(training error)(也称为经验风险(empirical risk)或经验误差(empiriacal error))为:

过拟合与欠拟合数学原理

训练误差为模型在训练样本中的错分类的比例,如果我们要强调过拟合与欠拟合数学原理是依赖训练集的,也可以将其写作过拟合与欠拟合数学原理

我们再定义泛化误差(generalization error)

过拟合与欠拟合数学原理

这里得到的是一个概率,表示通过特定的分布D生成的样本(x,y)中的y与通过预测函数h(x)生成的结果不同的概率。

注意,我们假设训练集的数据是通过某种分布D生成的,我们以此为依据来衡量假设函数。这里的假设有时称为PAC(probablyapproximately correct)假设。

在线性分类中,假设函数过拟合与欠拟合数学原理中参数过拟合与欠拟合数学原理如何得来?其中一个方法就是调整参数过拟合与欠拟合数学原理,使得训练误差最小,即:

过拟合与欠拟合数学原理

我们称这样的方法为经验风险最小化(empirical risk mininmization,ERM),其中过拟合与欠拟合数学原理 ,基于ERM原则的算法可视作最基本的学习算法。线性回归和logistic回归都可以看作是遵守ERM的算法。

我们定义假设类集合过拟合与欠拟合数学原理(hypothesis class)为所有假设函数的集合。例如线性分类问题中,过拟合与欠拟合数学原理,其为所有的过拟合与欠拟合数学原理(输入的定义域),对应的线性决策边界。

因此,ERM也可以认为是一组分类器的集合中,使得训练误差最小的那个分类器,即:

过拟合与欠拟合数学原理

3.有穷集过拟合与欠拟合数学原理

我们定义假设类集合过拟合与欠拟合数学原理由k个假设类(hypotheses)构成。其中,过拟合与欠拟合数学原理为k个由过拟合与欠拟合数学原理至{0,1}的映射函数构成,ERM从集合中k个元素选择过拟合与欠拟合数学原理使得训练误差最小。

为了确保过拟合与欠拟合数学原理和泛化误差的差值是有上界的,即如果训练误差很小,那么泛化误差也不会太大,我们需要完成两个步骤:首先,证明对于任意h,过拟合与欠拟合数学原理是对过拟合与欠拟合数学原理的可靠估计;其次,证明过拟合与欠拟合数学原理存在上界。

我们令过拟合与欠拟合数学原理,随机变量Z服从伯努利分布,样本由分布过拟合与欠拟合数学原理生成:即:过拟合与欠拟合数学原理。并且定义:过拟合与欠拟合数学原理,即Z为指示变量,用来标记被假设函数过拟合与欠拟合数学原理错误分类的样本。

泛化误差过拟合与欠拟合数学原理定义为随机变量Z的期望,训练误差过拟合与欠拟合数学原理为训练样本被假设函数误分类的比例,即:

过拟合与欠拟合数学原理

利用Hoeffding不等式,可以得到:

相关文章:

  • 2021-07-10
  • 2022-12-23
猜你喜欢
  • 2021-05-09
  • 2021-11-17
  • 2021-12-13
相关资源
相似解决方案