Lecture 16 ： Three Learning Principles

【参考】https://redstonewill.com/311/

【概括】
机器学习三个重要的锦囊妙计：Occam’s Razor, Sampling Bias, Data Snooping。
并对《机器学习基石》课程中介绍的所有知识和方法进行“三的威力”这种形式的概括与总结，“三的威力”也就构成了坚固的机器学习基石。

16.1 Occam’s Razor

奥卡姆剃刀定律：如无必要，勿增实体”，就像剃刀一样，将不必要的部分去除掉
反映到机器学习领域中，指的是在所有可能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。

简单的模型一方面指的是简单的hypothesis，简单的hypothesis就是指模型使用的特征比较少，例如多项式阶数比较少。简单模型另一方面指的是模型H包含的hypothesis数目有限，不会太多，这也是简单模型包含的内容。
Lecture 16 ： Three Learning Principles
机器学习的目的是“找规律”，即分析数据的特征，总结出规律性的东西出来。
如果有一组数据，如果可以比较容易找到一个模型能完美地把数据分开，那表明数据本身应该是有某种规律性。也就是说杂乱的数据应该不可以分开，能够分开的数据应该不是杂乱的。
如果使用某种简单的模型就可以将数据分开，那表明数据本身应该符合某种规律性。
相反地，如果用很复杂的模型将数据分开，并不能保证数据本身有规律性存在，也有可能是杂乱的数据，因为无论是有规律数据还是杂乱数据，复杂模型都能分开。这就不是机器学习模型解决的内容了。
所以，模型选择中，我们应该尽量先选择简单模型，例如最简单的线性模型。

16.2 Sampling Bias

抽样的样本会影响到结果，用一句话表示“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”意思是，如果抽样有偏差的话，那么学习的结果也产生了偏差，这种情形称之为抽样偏差Sampling Bias。

从技术上来说，就是训练数据和验证数据要服从同一个分布，最好都是独立同分布的，这样训练得到的模型才能更好地具有代表性。

16.3 Data Snooping

在模型选择时应该尽量避免偷窥数据，因为这样会使我们人为地倾向于某种模型，而不是根据数据进行随机选择。

当你在使用这些数据的任何过程，都是间接地偷看到了数据本身，然后你会进行一些模型的选择或者决策，这就增加了许多的model complexity，也就是引入了污染。

Lecture 16 ： Three Learning Principles

在机器学习过程中，避免“偷窥数据”非常重要，但实际上，完全避免也很困难。实际操作中，有一些方法可以帮助我们尽量避免偷窥数据。第一个方法是“看不见”数据。就是说当我们在选择模型的时候，尽量用我们的经验和知识来做判断选择，而不是通过数据来选择。先选模型，再看数据。第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑，要通过自己的研究与测试来进行模型选择，这样才能得到比较正确的结论。

16.4 Power of Three

跟机器学习相关的三个领域

Lecture 16 ： Three Learning Principles

三个理论保证

Lecture 16 ： Three Learning Principles
4. 三种线性模型

三种重要的工具

Lecture 16 ： Three Learning Principles

本节课介绍的三个锦囊妙计

Lecture 16 ： Three Learning Principles

未来机器学习的方向也分为三种：

Lecture 16 ： Three Learning Principles