1 机器学习的目的
机器学习的大多数情况下是让机器通过现有的训练集的学习到一些技能,这些技能可以预测未知数据,即选择一个最佳的h做为学习结果,那么这种预测是可能的么?当然是可能,不过有一个前提,就是训练样本与样本总体同分布。
假设我们又一个瓶子,里面有很多弹珠,其中有绿色和橙色弹珠,请问瓶中橙色弹珠的比例是多少?当然我们可以将瓶中的弹珠一颗颗取出来再计算橙色弹珠的比例,但是假设瓶子太大,弹珠太多,应该怎么办呢?这时候会考虑从瓶中随机抽样一部分弹珠,计算这部分弹珠中橙色弹珠的比例作为整体弹珠中橙色弹珠比例的近似值。
为什么可以根据采样样本中橙色弹珠比例来估算瓶子弹珠总体的橙色弹珠比例?这里要引出霍夫丁不等式(Hoeffding’s inequality),假设抽样的样本数为,瓶子中橙色弹珠的比例为,抽样弹珠中橙色单数的比例为,那么的概率小于等于一个很小的值,即表示为霍夫丁不等式
那么可以说,这句话近似大概是对的,即PCA(probably approximately correct)。
其实对于任意的和,霍夫丁不等式都成立,但是对于越大的N,我们越有信心从推断出。
怎么根据上面的例子与机器学习练习起来呢?假设存在以下对应关系:
瓶子中未知的橙色弹珠比例等价于整个输入空间中输入样本满足占总体样本的比例;
瓶子中的弹珠等价于样本空间的;
橙色弹珠等价于错误的假设,此时;
绿色弹珠等价于正确的假设,此时;
从瓶子中抽样N个弹珠相当于从样本总体中采样得到样本空间。
假设采样样本数足够大且独立同分布,那么可以根据样本集学到的的概率推断出样本总体中的概率。
根据霍夫丁不等式,可以得到
如果有一个假设,且样本数足够大,那么。
上面所说的是对某个特定的假设,其在样本总体的表现可以和其在采样数据集的表现很接近,如果能够在训练样本上表现好,那么它在样本总体中也表现好。可事实上我们有一个假设空间,我们希望在这个假设空间中找到一个最好的,即最小的作为最终的假设,但是这样真的能保证最小呢?答案应该是不能。