首先以一个工匠为例,说明要成为一个出色的工匠,就需要掌握各种工具的使用,才能知道在具体的任务中选择什么工具来做。所以今天要讲的就是机器学习的理论部分。


bias variance trade off,以线性回归为例,underfitting对应high的bias(偏差),overfitting对应high的variance(方差),主要是拟合出了一些奇怪的特性。同样的对于分类问题,复杂的分类边界(decision boundary)也可能出现high variance,而简单的分类边界出现high bias。


training data set


下面主要说明在何种条件下能够通过training error作为一个generalization error的很好估计,通过hoffeding不等式建立一个upper bound的关系,有利于推出如何的训练条件能够保证是好的估计。最后得到了如下形式的联系:


这是对于一个hypothesis

上式说明了一个一致性收敛问题,就是说在hypothesis set中至少以概率为内,这就是uniform convergence 的结果。
后面又引入了sample complexity即样本复杂度bound,说明的是为了达到对误差的一定bound或需要多少训练样本。公式中可以看出,log选项说明对于增加模型复杂度即Hypothesis的数量k,而在保证同样的error bound时,样本数量不用增加太多,因为log是增长速度最慢的一个函数了。


training error会随着hypothesis model complexity的增加而下降,而generalization error随之下降后增加,对应着high bias到high variance,即underfitting到overfitting


2015-9-10 艺少

相关文章:

  • 2021-09-30
  • 2021-11-09
  • 2021-12-23
  • 2021-09-30
  • 2021-07-20
  • 2021-04-02
猜你喜欢
  • 2021-09-02
  • 2021-09-30
  • 2021-09-30
  • 2021-06-09
  • 2021-11-22
  • 2021-12-13
  • 2021-09-02
相关资源
相似解决方案