机器学习：bias, variance, underfitting, overfitting, training error, test error

在机器学习中总是绕不开的几个概念就是bias, variance, underfitting, overfitting, training error, test error。他们之间到底是什么关系呢？

概念

training error: 在训练集中，模型预测的值和真实值之间的误差；（一次测量准确性）
cross validation error or test error: 在交叉验证或测试集中，模型预测值和真实值之间的误差；（多次测量的一致性）

high bias (under fit): 是指在训练集中，模型预测值和真实值之间的误差比较大，即模型测量真实值不准确；

high variance(over fit): 是指在交叉验证集或测试集中，模型预测的误差较大。有可能有两种情况，一种情况是训练集中模型预测的就不准确；另一种情况是在预测集中模型预测非常准确（100%能预测），但是在交叉验证或测试集中模型预测的误差很大，即多次测量的一致性较低。

bias：
模型预测的平均值和真实值之间的误差，高bias说明，模型没有很好的拟合训练集的数据，往往是由于参数太少，模型过去简单导致的。结果导致训练数据和测试数据的误差都会比较大。比如：用线性模型预测非线性数据。

variance：
每次模型单独预测的值和模型多次预测的平均值之间的误差，高variance说明，模型对训练数据拟合的特别好，但是泛化能力很差，不能泛化到新的数据集上，模型在不同的数据集上的预测误差相差特别大，比如能很好的拟合训练集的数据，但是交叉验证和测试数据的拟合效果却很差。结果回导致模型在训练集上的误差很小，但是在测试数据上的误差很大。

数学公式：

公式： Y = f(x) + e
Y是真实值；f(X)是模型预测值；e是误差值，假设误差e是均值为0的正太分布;

在某个点上平方误差的期望为：

机器学习：bias, variance, underfitting, overfitting, training error, test error
误差Err(x)分解：

即：总误差 = 某个点上模型预测的均值和该点真实值的误差平方和 + 某个点上模型预测值与该点模型预测的平均值的误差平方和的期望 + 不能消除的误差

不能消除的误差的原因是： 数据本身有噪音，不管怎么提高模型，都不能消除的误差；应该是包括系统误差和随机误差的这部分误差，比如尺子本来就不准，不管测什么，都会有一个固定的误差就是随机误差；还有就是随机误差，测试员不小心手抖了一下等，这是随机因素导致的。因为有这些误差的存在，所以导致数据有噪音，不管怎么提高模型，都不能避免。

靶心图来描述bias和variance：
机器学习：bias, variance, underfitting, overfitting, training error, test error
靶心的位置表示真实值所在的位置，模型在某点上的平均预测值离靶心越远，说明bias越高；当模型在某点上的平均预测值离靶心越近，说明bias月底。

模型在某点上每次的预测值和模型在该点上预测的平均值，差异越小，说明variance越小；模型在某点上每次的预测值和模型在该点上的平均预测值的差异越大，说明variance越大。

欠拟合（underfitting）
模型没有找到数据潜在的模式，模型通常有较高的bias和较低的variance。原因可能是：1，数据量太少，不能建立一个比较准确的模型；2，选择的模型不对，比如用一个线性模型去拟合一个非线性的数据，3，是模型过于简单，不能识别复杂数据的潜在模式

过拟合（overfitting）
是指模型拟合数据的时候，把噪音也拟合进去了，这些模型回导致低的bias和比较高的variance。导致这样结果的模型一般是比较复杂的模型，如决策树模型。
机器学习：bias, variance, underfitting, overfitting, training error, test error
参考资料：
吴恩达机器学习课程
 Understanding the Bias-Variance Tradeoff