在机器学习中总是绕不开的几个概念就是bias, variance, underfitting, overfitting, training error, test error。他们之间到底是什么关系呢?

概念

training error: 在训练集中,模型预测的值和真实值之间的误差;(一次测量准确性)
cross validation error or test error: 在交叉验证或测试集中,模型预测值和真实值之间的误差;(多次测量的一致性)

high bias (under fit): 是指在训练集中,模型预测值和真实值之间的误差比较大,即模型测量真实值不准确;

high variance(over fit): 是指在交叉验证集或测试集中,模型预测的误差较大。有可能有两种情况,一种情况是训练集中模型预测的就不准确;另一种情况是在预测集中模型预测非常准确(100%能预测),但是在交叉验证或测试集中模型预测的误差很大,即多次测量的一致性较低。

bias:
模型预测的平均值和真实值之间的误差,高bias说明,模型没有很好的拟合训练集的数据,往往是由于参数太少,模型过去简单导致的。结果导致训练数据和测试数据的误差都会比较大。比如:用线性模型预测非线性数据。

variance:
每次模型单独预测的值和模型多次预测的平均值之间的误差,高variance说明,模型对训练数据拟合的特别好,但是泛化能力很差,不能泛化到新的数据集上,模型在不同的数据集上的预测误差相差特别大,比如能很好的拟合训练集的数据,但是交叉验证和测试数据的拟合效果却很差。结果回导致模型在训练集上的误差很小,但是在测试数据上的误差很大。

数学公式:

公式: Y = f(x) + e
Y是真实值;f(X)是模型预测值;e是误差值,假设误差e是均值为0的正太分布;

在某个点上平方误差的期望为:

机器学习:bias, variance, underfitting, overfitting, training error, test error
误差Err(x)分解:
机器学习:bias, variance, underfitting, overfitting, training error, test error
即:总误差 = 某个点上模型预测的均值 和 该点真实值的误差平方和 + 某个点上模型预测值 与 该点模型预测的平均值 的误差平方和的 期望 + 不能消除的误差

不能消除的误差的原因是: 数据本身有噪音,不管怎么提高模型,都不能消除的误差;应该是包括系统误差和随机误差的这部分误差,比如尺子本来就不准,不管测什么,都会有一个固定的误差就是随机误差;还有就是随机误差,测试员不小心手抖了一下等,这是随机因素导致的。因为有这些误差的存在,所以导致数据有噪音,不管怎么提高模型,都不能避免。

靶心图来描述bias和variance:
机器学习:bias, variance, underfitting, overfitting, training error, test error
靶心的位置表示真实值所在的位置,模型在某点上的平均预测值 离靶心越远,说明bias越高;当模型在某点上的平均预测值 离靶心越近,说明bias月底。

模型在某点上每次的预测值 和模型在该点上预测的平均值,差异越小,说明variance越小;模型在某点上每次的预测值 和模型在该点上的平均预测值 的差异越大,说明variance越大。

欠拟合(underfitting)
模型没有找到数据潜在的模式,模型通常有较高的bias和较低的variance。原因可能是:1,数据量太少,不能建立一个比较准确的模型;2,选择的模型不对,比如用一个线性模型去拟合一个非线性的数据,3,是模型过于简单,不能识别复杂数据的潜在模式

过拟合(overfitting)
是指模型拟合数据的时候,把噪音也拟合进去了,这些模型回导致低的bias和比较高的variance。导致这样结果的模型一般是比较复杂的模型,如决策树模型。
机器学习:bias, variance, underfitting, overfitting, training error, test error
参考资料:
吴恩达机器学习课程
Understanding the Bias-Variance Tradeoff

相关文章:

  • 2021-07-04
  • 2022-12-23
  • 2021-07-29
  • 2022-12-23
  • 2021-09-30
  • 2021-12-07
  • 2021-08-29
  • 2021-07-02
猜你喜欢
  • 2021-11-19
  • 2021-06-06
  • 2021-11-23
  • 2021-11-27
  • 2021-07-22
  • 2022-01-07
相关资源
相似解决方案