斯坦福机器学习笔记9——偏差

通过一部分训练集拟合或是分类得到的模型，是否在样本总体上同样适用，误差又有多少。这是本节研究的内容。

模型复杂程度对拟合效果的影响

斯坦福机器学习笔记9——偏差
如图所示，用曲线拟合一组样本点。左图用一条之间进行拟合，模型简单，但是很多点都不在这条直线上，偏差（Bias）和方差（Variance）都比较大。
中间图采用二次曲线拟合，看着样本数据点都在曲线附近，偏差（Bias）和方差（Variance）都较小。
右图采用高阶曲线拟合，样本点都在曲线上。但是拟合出来的曲线可能只适应该组样本，对整体的情况很可能不太适应。
一般认为，欠拟合偏差大，过拟合方差大。

知乎的一篇文章里，认为误差分为偏差和方差两种（也有人加入噪音认为是三种）。他们的关系如图所示。
斯坦福机器学习笔记9——偏差

减小误差方法

参考2，3中，详述了了如下概念：测试误差：即泛化误差，是模型关于测试数据集的平均损失。训练误差：是模型关于训练数据集的平均损失；
拟合过程，是通过训练集上建立模型，来拟合预测总体的数据，建立的模型的质量的评价指标：泛化误差只能用训练误差去估计。
用训练误差估计，是否是有效的，这个是下一步我们要证明的。
假设h是测试数据到它的分类结果的一个映射，我们认为若h可以在训练数据集上误差最小，则在测试数据集上的误差（测试误差或泛化误差）也可以相对较小。
这里的训练误差，我们定义为：

ϵ^(h)=1m∑i=1mI{h(x(i))≠y}

两个引理

1、联合界定理
令A1,A2,…,Ak 是k 个事件，这k 个事件可以相互独立也可以不相互独立，那么我们会得到：

P (A 1 U A 2 U \dots U A k) \leq P (A 1) + P (A 2) + \dots + P (A k)

这个用文氏图来说明：
斯坦福机器学习笔记9——偏差

2、Hoeffding 不等式
令Z1,Z2,…,Zm为m 个独立同分布(i.i.d)变量，它们都服从Bernoulli 分布，即： P(Zi=1)=φ,P(Zi=0)=1−φ我们使用这m个 i.i.d 的平均值来估计φ。得到： ϕ^=1m∑mi=1Zi
Hoeffding 不等式的定义即为对于任意的固定数值γ>0，存在

P (| ϕ^- ϕ | > γ) < 2 e - 2 γ 2 m

可以看到，当样本数目m增大时，右边变小，左边的误差也减小，对参数的估计将越来越逼近真实值。
注意，这个不是中心极限定理得到的，他对任意m都成立。
关于这两个定理的证明，并没有给出。

一致收敛

假设模型的集合里

模型复杂程度对拟合效果的影响

减小误差方法

两个引理

一致收敛

参考：