Basic Concept

2020.8.7

为什么会有误差?

误差一般有两个来源

  1. bias - 偏差
  2. variance - 方差

如果可以确定误差来源,就可以挑选适当的方法提高模型效果。

理论上最佳的方程,记为f^\hat{f},对我们来说是未知的。我们只能通过现有的训练集,找到我们能算出的最佳方程,记为ff^*ff^*并不一定等于f^\hat{f},是f^\hat{f}的估测值,两者的距离可能来自于Bias+Variance。
假设目前有一个变量xx,实际的均值为μ\mu,方差为σ2\sigma^2,均未知。
要估计均值,取NN个点作为样本(x1,x2,...,xN)(x^1,x^2,...,x^N),则均值m=1Nnxnμm=\frac{1}{N}\sum_{n}x^n\neq\mu取不同的样本,mm的值不同,不一定等于μ\mu,而是围绕其上下波动。计算样本均值mm的期望E(m)=E(1Nnxn)=1NnE(xn)=μE(m)=E(\frac{1}{N}\sum_{n}x^n)=\frac{1}{N}\sum_{n} E(x^n)=\mu样本均值是无偏估计(Unbiased estimator)。
散布在周围会散得多开,取决于方差Var(m)=σ2NVar(m)=\frac{\sigma^2}{N}。当样本比较大,即取的NN较大,均值mm会相对集中,方差较小;反之,样本较小时方差较大。s2=1Nn(xnm)2s_2=\frac{1}{N}\sum_{n}(x^n-m)^2计算样本方差s2s^2的期望E(s2)=N1Nσ2σ2E(s^2)=\frac{N-1}{N}\sigma^2\neq\sigma^2平均来说样本方差小于总体方差,样本方差是有偏估计(Biased estimator)。
误差存在于两个方面:

  1. 瞄准位置离靶心位置的距离[准] - Bias
  2. 射中位置离瞄准位置的距离[稳] - Variance
    【学习笔记】李宏毅老师机器学习2020_Basic Concept

Variance

每个样本中的数据是不一样的,找到的最好的方程ff^*也是不一样的。用100个样本训练100个ff^*,分别遵循y=b+wxcpy=b+w·x_{cp}的方程和y=b+wxcp+w2(xcp)2+w3(xcp)3+w4(xcp)4+w5(xcp)5y=b+w·x_{cp}+w_2·(x_{cp})^2+w_3·(x_{cp})^3+w_4·(x_{cp})^4+w_5·(x_{cp})^5的方程,得到结果如下图所示。
【学习笔记】李宏毅老师机器学习2020_Basic Concept
相对于二次方程来说,五次方程每条线都散布非常开,比较简单的模型受到数据的影响比较小,复杂的模型Variance比较大。

Bias

假设实际观测值遵循的方程为f^\hat{f},用黑色表示;5000个不同样本训练得到的最优方程为ff^*,用红色表示;5000个最优方程的平均值为fˉ\bar{f},用蓝色表示。训练二次方程和五次方程分别如下图所示。
【学习笔记】李宏毅老师机器学习2020_Basic Concept
方程次数越高,Bias越小,最终得到的平均fˉ\bar{f}越接近实际观测的f^\hat{f}

欠拟合与过拟合

简单的模型包含的范围是比较小的(较小的Variance),而这个范围可能没有包含Target(较大的Bias),所以在其中不论怎么选择,都无法得到Target。复杂的模型包含的范围比较大(较大的Variance),可能有包含Target(较小的Bias),由于训练集太小或不稳定,所以每次都不一样,但是平均起来可以较接近Target。
随着方程次数增大、复杂性增加,因Bias引起的误差一直减小,因Variance引起的误差一直增大,所以观测到的误差存在先减小后增大的情况。Bias很大而Variance很小的现象称为欠拟合(Underfitting),Variance很大而Bias很小的现象称为过拟合(Overfitting)。
【学习笔记】李宏毅老师机器学习2020_Basic Concept
在实际模型训练中,如果模型无法拟合训练集,则欠拟合,Bias大;如果模型在训练集的拟合效果较好,但在测试集的拟合效果非常差,则过拟合,Variance大。两种问题用不同的处理方式。
对于欠拟合(Bias):重新设计更复杂的模型,增加更多的特征
对于过拟合(Variance):增大训练集规模(但是可能会受到收集限制,可以自行创造数据hhh),正则化使模型更加平滑(但是可能会增大Bias)
通常要平衡Bias和Variance,从而减小总误差。


课程视频及资料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

相关文章:

  • 2021-07-05
  • 2022-01-03
  • 2021-12-17
  • 2021-08-11
  • 2021-10-06
  • 2021-06-01
  • 2022-01-13
  • 2022-01-17
猜你喜欢
  • 2021-12-26
  • 2021-04-03
  • 2021-10-12
  • 2022-12-23
  • 2021-08-14
  • 2021-07-14
相关资源
相似解决方案