主要结论:
测试误差一般来源于偏差(Bias)和方差(Variance)
当偏差大的时候出现欠拟合,当方差大的时候出现过拟合。
解决方法:
当偏差大的时候,增加特征个数(使用更复杂的模型)来优化;
当方差大的时候,增加样本个数或者正则化来优化。
偏差和方差的定义
估计变量的均值:
假设的平均值是,方差是,现已知的一些样本点(但不全知道)的情况下如何求呢?例如已知个样本点。
求的方法:
的方差为(的方差取决于样本的个数):
右下角:实际目标为红色点,而算出的是蓝色的小点,取这些蓝色小点的期望为用如图所示的蓝色大点表示,那么蓝色大点与红色点之间的距离就是偏差,而蓝色大点与蓝色小点之间的距离就是方差。
左上角:偏差和方差都比较小;
右上角:偏差较小方差较大;
左下角:偏差较大方差较小。
偏差和方差由什么因素决定?
-
方差
方差由模型的复杂度决定,模型越复杂方差越大。
下图中每条函数曲线都是从同一分布中随机抓取相同数量的样本分别学习得到的预测曲线。
当采用比较简单的模型时得到的预测曲线比较一致;
当使用比较复杂的模型时得到的预测曲线杂乱无章;
就想比较聚集的蓝色小点和比较分散的蓝色小点。 -
偏差
如果把所有的做平均它是否会接近呢?
先假设一个,如下图:
分别用一次式、三次式和五次式为模型对5000个不同的样本组进行学习并绘制出预测曲线,并用黑色曲线表示假设的,用蓝色去彪表示对5000条预测曲线求平均后的曲线,如下图:
模型越复杂预测曲线的平均值曲线与真实曲线越相近。
这是因为:用简单的模型学习预测函数时它的值域会比较小,分布范围也小;用复杂模型学习预测函数时它的值域比较大,分布范围也大。
如下图:
受偏差和方差影响的测量误差
红线:由偏差引起的误差;
绿色:由方差引起的误差;
蓝色:测量误差
分两种情况来进行优化
- 偏差比较大的情况:
当偏差大的时候通过增加特征个数(使用更复杂的模型)来优化。 - 方差比较大的情况:
当方差大的时候通过增加样本个数或者正则化来优化。