通过一部分训练集拟合或是分类得到的模型,是否在样本总体上同样适用,误差又有多少。这是本节研究的内容。
模型复杂程度对拟合效果的影响
如图所示,用曲线拟合一组样本点。左图用一条之间进行拟合,模型简单,但是很多点都不在这条直线上,偏差(Bias)和方差(Variance)都比较大。
中间图采用二次曲线拟合,看着样本数据点都在曲线附近,偏差(Bias)和方差(Variance)都较小。
右图采用高阶曲线拟合,样本点都在曲线上。但是拟合出来的曲线可能只适应该组样本,对整体的情况很可能不太适应。
一般认为,欠拟合偏差大,过拟合方差大。
知乎的一篇文章里,认为误差分为偏差和方差两种(也有人加入噪音认为是三种)。他们的关系如图所示。
减小误差方法
参考2,3中,详述了了如下概念:测试误差:即泛化误差,是模型关于测试数据集的平均损失。训练误差:是模型关于训练数据集的平均损失;
拟合过程,是通过训练集上建立模型,来拟合预测总体的数据,建立的模型的质量的评价指标:泛化误差只能用训练误差去估计。
用训练误差估计,是否是有效的,这个是下一步我们要证明的。
假设
这里的训练误差,我们定义为:
两个引理
1、联合界定理
令
这个用文氏图来说明:
2、Hoeffding 不等式
令
Hoeffding 不等式的定义即为对于任意的固定数值
可以看到,当样本数目m增大时,右边变小,左边的误差也减小,对参数的估计将越来越逼近真实值。
注意,这个不是中心极限定理得到的,他对任意m都成立。
关于这两个定理的证明,并没有给出。
一致收敛
假设模型的集合里