正则化

过拟合问题

  • 过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
  • 过拟合的判断方法:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
  • 过拟合的常见原因:
    1. 建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
    2. 样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
    3. 假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;
    4. 参数太多,模型复杂度过高。

解决过拟合问题:

  1. 减少特征的数目
  2. 正则化

机器学习:过拟合和正则化

代价函数

正则化使 θo、……、θn尽可能小:

  1. 简化了假设模型(参数数值越小,得到的函数就越平滑,也越简单)
  2. 不太容易过拟合

机器学习:过拟合和正则化

若 λ 的值太大,则会导致欠拟合。

线性回归的正则化

梯度下降

机器学习:过拟合和正则化

正态方程

机器学习:过拟合和正则化

只要 λ 是严格大于 0 的,这个矩阵就一定是可逆的。因此,正则化还可以解决使用正态方程时不可逆的问题。

逻辑回归的正则化

机器学习:过拟合和正则化

相关文章: