台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

上节课，我们主要介绍了机器学习可以根据元素的不同情况分为不同的类型。其中，监督式学习、非监督式学习、半监督式学习和增强学习。本节课，我们将介绍机器学习的可行性，讨论问题是否可以使用机器学习来解决。

一、Learning is Impossible？
机器学习一定是可行的吗？
台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

第一个例子，我们可以找到不同的g(x)，它同时满足所有训练样本D；
但当有一个新的x输入时，应用不同的g(x)，会得到完全相反的y；
那么我们认为这个机器学习并没有学习到!？

台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

第二个例子，我们找到这样一个g≈f，可以满足所有的训练样本D
但是在D以外的未知数据上，g≈f不一定成立。
而机器学习目的，恰恰是希望我们选择的模型能在未知数据上的预测与真实结果是一致的，而不是在已知的数据集D上寻求最佳效果。

所以我們想要的是资料以外的部分。但是这两个例子好像告我们想要的事情是做不到的。我们把这一系列的研究叫做No Free Lunch（没有免费的午餐）。NFL理论告诉我们：

不存在一个与具体应用无关的，普遍适用的“最优分类器”
学习算法必须要作出一个与问题领域有关的“假设”，分类器必须与问题域相适应。

In the field of optimization, the NFL means that without a prior assumption about the specific problem, no strategy can be expected to perform better than any other.
So, make no efforts on distinguishing better strategies when you know nothing about the dataset. There is no universal optimal strategy.【1】

二、Probability to the Rescue
上一小节，我们认识到基于训练样本D，可能很难找到一个模型也能够很准确地判断D以外的应用。那是否有一些工具或者方法能够对未知的目标函数f做一些推论，让我们的机器学习模型能够变得有用呢？
台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

这个例子希望通过有限的样本对总体进行橙色球和绿色球的比例进行估计；
这个答案是显而易见的，当样本数量N达到足够大时，ν就越接近于μ，这就是Hoeffding’s inequality（霍夫丁不等式）；
Probably Approximately Correct（PAC）机器学习的现实情况：a.预测错误率不可能为0 b.训练样本有一定的误导性；所以我们不再要求学习器完全正确，而是近似正确；
有关PAC的进一步的介绍可参考[3]

三、Connection to Learning
接下来老师把PAC的理论应用到实际的机器学习中，还是以罐子中橙色球绿色球的例子（我理解可能会不太正确）：
台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

首先把求罐子中色球比例，转化成解一个选定的hypothesis与目标函数一致的概率；
因此做了这样一个类比，橙色的弹珠类比于h(x)与f不相等，绿色的弹珠类比于h(x)与f相等；
当样本N足够大时，h(x)=f(x)的概率就可以推广到训练样本D之外。

台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

要素图中增加了一个“unknown P on X”，样本中的一个概率，它一方面提供了取样样本D，另一方面又可以去衡量是否满足h≈f；
这里的h是从hypothesis set中选取的一个特定的h；
这里引入两个值Ein(h)和Eout(h)：Ein(h)表示在抽样样本中，h(x)与yn不相等的概率，相当于例子中的ν；Eout(h)表示实际所有样本中，h(x)与f(x)不相等的概率是多少，相当于例子中的μ；

Ein和Eout分别表示模型假设对样本（已知）的错误率和对真实情况（未知）的错误率。我们机器学习提出的模型假设如果对大量已知样本能够较好地拟合的话，那它对真实的未知样本应该也能够较好地拟合。

台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning
- Ein(h)=Eout(h)也是PAC的；
- 如果Ein(h)≈Eout(h)，Ein(h)很小，那么就能推断出Eout(h)很小，也就是说在该数据分布P下，h与f非常接近，机器学习的模型比较准确。

台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

基于上面当我们得到Ein(h)≈Eout(h)时，我们并不能简单地就声称这个h就是g；
如果对于一个选定的h，Ein(h)并没有很小，那么我们是不能认为这个h不是g，即g!≈f PAC；
但从另一方面来讲的话，这样的方法其实是可以用来验证衡量hypothesis set中每个h的准确性，从中选择一个最准确的h=g。

四、Connection to Real Learning
台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

假设现在有很多罐子M个（即有M个hypothesis），如果其中某个罐子抽样的球全是绿色，那是不是应该选择这个罐子呢？

台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

150个人抛硬币，那么其中至少有一个人连续5次硬币都是正面朝上的概率是大于99%；
可见这个概率是很大的，但是能否说明5次正面朝上的这个硬币具有代表性呢？答案是否定的！并不能说明该硬币单次正面朝上的概率很大，其实都是0.5；
当罐子数目很多或者抛硬币的人数很多的时候，可能引发Bad Sample，Bad Sample就是Ein和Eout差别很大，即选择过多带来的负面影响，选择过多会恶化不好的情形。
Bad data for one h：Ein(h)和Eout(h)差别很大，通常是Ein(h)很小，Eout(h)很大，要注意这里所的bad data是针对某一个h而言的；
Bad data for many h：这样的data会导致演算法A不能自由地选择一个h，因为对于某一个h可能会导致Ein(h)与Eout(h)相差很大；
对于一个假设hi（每一行），Hoeffding保证其不好的情况总体的概率是很小的；
对于含有BAD的每一列来说，只要有BAD，算法就无法从所有假设中自由做选择；
只要Dn在某个hypothesis上是Bad Data，那么Dn就是Bad Data，表中D1126这个数据集是God data；
上图计算了bad data的概率边界，M是hypothesis的个数，N是样本D的数量，ϵ是参数；
当M有限，且N足够大的时候，Bad Data出现的概率就更低了，即能保证D对于所有的h都有Ein≈Eout，满足PAC，演算法A的选择不受限制。
所以，如果hypothesis的个数M是有限的，N足够大，那么通过演算法A任意选择一个g，都有Ein≈Eout成立；同时，如果找到一个g，使Ein≈0，PAC就能保证Eout≈0。至此，就证明了机器学习是可行的。
但如果M无穷大呢？

五、总结
本节课主要介绍了机器学习的可行性。首先引入NFL定理，说明机器学习无法找到一个g能够完全和目标函数f一样。接着介绍了可以采用一些统计上的假设，例如Hoeffding不等式，建立Ein和Eout的联系，证明对于某个h，当N足够大的时候，Ein和Eout是PAC的。最后，对于h个数很多的情况，只要有h个数M是有限的，且N足够大，就能保证Ein≈Eout，证明机器学习是可行的。

Reference：
[1]Ho Y C, Pepyne D L. Simple Explanation of the No-Free-Lunch Theorem and Its Implications[J]. Journal of Optimization Theory & Applications, 2002, 115(3):549-570.
[2]https://blog.csdn.net/red_stone1/article/details/71082934
[3]https://blog.csdn.net/rongxiang20054209/article/details/77601091 PAC（probably approximately correct）学习架构介绍