Lecture 16 : Three Learning Principles

【参考】https://redstonewill.com/311/

【概括】
机器学习三个重要的锦囊妙计:Occam’s Razor, Sampling Bias, Data Snooping。
并对《机器学习基石》课程中介绍的所有知识和方法进行“三的威力”这种形式的概括与总结,“三的威力”也就构成了坚固的机器学习基石。

16.1 Occam’s Razor

奥卡姆剃刀定律:如无必要,勿增实体”,就像剃刀一样,将不必要的部分去除掉
反映到机器学习领域中,指的是在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。

简单的模型一方面指的是简单的hypothesis,简单的hypothesis就是指模型使用的特征比较少,例如多项式阶数比较少。简单模型另一方面指的是模型H包含的hypothesis数目有限,不会太多,这也是简单模型包含的内容。
Lecture 16 : Three Learning Principles
机器学习的目的是“找规律”,即分析数据的特征,总结出规律性的东西出来。
如果有一组数据,如果可以比较容易找到一个模型能完美地把数据分开,那表明数据本身应该是有某种规律性。也就是说杂乱的数据应该不可以分开,能够分开的数据应该不是杂乱的。
如果使用某种简单的模型就可以将数据分开,那表明数据本身应该符合某种规律性。
相反地,如果用很复杂的模型将数据分开,并不能保证数据本身有规律性存在,也有可能是杂乱的数据,因为无论是有规律数据还是杂乱数据,复杂模型都能分开。这就不是机器学习模型解决的内容了。
所以,模型选择中,我们应该尽量先选择简单模型,例如最简单的线性模型。

16.2 Sampling Bias

抽样的样本会影响到结果,用一句话表示“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”意思是,如果抽样有偏差的话,那么学习的结果也产生了偏差,这种情形称之为抽样偏差Sampling Bias。

从技术上来说,就是训练数据和验证数据要服从同一个分布,最好都是独立同分布的,这样训练得到的模型才能更好地具有代表性

16.3 Data Snooping

在模型选择时应该尽量避免偷窥数据,因为这样会使我们人为地倾向于某种模型,而不是根据数据进行随机选择。

当你在使用这些数据的任何过程,都是间接地偷看到了数据本身,然后你会进行一些模型的选择或者决策,这就增加了许多的model complexity,也就是引入了污染。

Lecture 16 : Three Learning Principles

在机器学习过程中,避免“偷窥数据”非常重要,但实际上,完全避免也很困难。实际操作中,有一些方法可以帮助我们尽量避免偷窥数据。第一个方法是“看不见”数据。就是说当我们在选择模型的时候,尽量用我们的经验和知识来做判断选择,而不是通过数据来选择。先选模型,再看数据。第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑,要通过自己的研究与测试来进行模型选择,这样才能得到比较正确的结论。

16.4 Power of Three

  1. 跟机器学习相关的三个领域

Lecture 16 : Three Learning Principles

  1. 三个理论保证

Lecture 16 : Three Learning Principles
4. 三种线性模型
Lecture 16 : Three Learning Principles

  1. 三种重要的工具

Lecture 16 : Three Learning Principles

  1. 本节课介绍的三个锦囊妙计

Lecture 16 : Three Learning Principles

  1. 未来机器学习的方向也分为三种:

Lecture 16 : Three Learning Principles

相关文章:

  • 2021-11-05
  • 2021-10-18
  • 2021-11-20
  • 2022-01-02
  • 2021-09-26
  • 2022-01-15
  • 2022-01-01
猜你喜欢
  • 2022-12-23
  • 2021-07-16
  • 2022-01-19
  • 2021-08-03
  • 2021-04-30
  • 2021-11-20
  • 2021-04-06
相关资源
相似解决方案