通过一部分训练集拟合或是分类得到的模型,是否在样本总体上同样适用,误差又有多少。这是本节研究的内容。

模型复杂程度对拟合效果的影响

斯坦福机器学习笔记9——偏差
如图所示,用曲线拟合一组样本点。左图用一条之间进行拟合,模型简单,但是很多点都不在这条直线上,偏差(Bias)和方差(Variance)都比较大。
中间图采用二次曲线拟合,看着样本数据点都在曲线附近,偏差(Bias)和方差(Variance)都较小。
右图采用高阶曲线拟合,样本点都在曲线上。但是拟合出来的曲线可能只适应该组样本,对整体的情况很可能不太适应。
一般认为,欠拟合偏差大,过拟合方差大。

知乎的一篇文章里,认为误差分为偏差和方差两种(也有人加入噪音认为是三种)。他们的关系如图所示。
斯坦福机器学习笔记9——偏差

减小误差方法

参考2,3中,详述了了如下概念:测试误差:即泛化误差,是模型关于测试数据集的平均损失。训练误差:是模型关于训练数据集的平均损失;
拟合过程,是通过训练集上建立模型,来拟合预测总体的数据,建立的模型的质量的评价指标:泛化误差只能用训练误差去估计。
用训练误差估计,是否是有效的,这个是下一步我们要证明的。
假设h是测试数据到它的分类结果的一个映射,我们认为若h可以在训练数据集上误差最小,则在测试数据集上的误差(测试误差或泛化误差)也可以相对较小。
这里的训练误差,我们定义为:

ϵ^(h)=1mi=1mI{h(x(i))y}

两个引理

1、联合界定理
A1,A2,,Akk 个事件,这k 个事件可以相互独立也可以不相互独立,那么我们会得到:

P(A1UA2UUAk)P(A1)+P(A2)++P(Ak)

这个用文氏图来说明:
斯坦福机器学习笔记9——偏差
2、Hoeffding 不等式
Z1,Z2,,Zmm 个独立同分布(i.i.d)变量,它们都服从Bernoulli 分布,即: P(Zi=1)=φ,P(Zi=0)=1φ我们使用这m个 i.i.d 的平均值来估计φ。得到: ϕ^=1mmi=1Zi
Hoeffding 不等式的定义即为对于任意的固定数值γ>0,存在
P(|ϕ^ϕ|>γ)<2e2γ2m

可以看到,当样本数目m增大时,右边变小,左边的误差也减小,对参数的估计将越来越逼近真实值。
注意,这个不是中心极限定理得到的,他对任意m都成立
关于这两个定理的证明,并没有给出。

一致收敛

假设模型的集合里

参考:

  1. 机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?
  2. 偏差,方差,训练误差,测试误差的区别
  3. 3.

相关文章: