归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,归纳偏好对应了算法本身所做出的关于“什么样的模型更好”的假设

有效的机器学习算法必然有归纳偏好,否则无法产生确定的学习结果,比如对于下图,三个假设对于同一个新样本,会产生不同的结果。
机器学习绪论(3)

对于下图,每个训练样本是图中的一个点,A,B都是与训练集一致的模型,算法应该偏好那种模型呢?

奥卡姆剃刀原则:若有多个假设与观察一致,选最简单那个
按照奥卡姆剃刀原则,并且假设我们认为“更平滑”意味着“更简单”,我们应该偏好A

机器学习绪论(3)

奥卡姆剃刀不是唯一的可行原则,归纳偏好的设置应尽量与问题本身相匹配


“没有免费的午餐”定理(NFL):没有先验知识的情况下,不能说明哪个算法更好

比如说我们之前选择偏好A,在图(a)所示情况下,A的测试样本更一致,有更好的泛化效果,但是在(b)这种样本情况下,显然B更好。也就是说,我们不知道样本是哪种分布时,并不能说A,B谁更好。

机器学习绪论(3)

证明:
X:样本空间,离散的
H:假设空间,离散的
P(h|X,La): 表示算法La基于训练数据X产生假设h的概率
f表示我们希望学习的真实目标函数
La在训练集之外所有样本的误差为:
机器学习绪论(3)

对于二分类问题,真实目标函数可以是任何函数X{0,1},函数空间为{0,1}|X|,对所有可能的f按均匀分布对误差求和:

机器学习绪论(3)

最后结果说明:总误差与学习算法无关!

但是,NFL有一个前提是f均匀分布,实际情况中往往不是这样,NFL的目的是让我们知道,脱离具体问题来讨论“什么学习算法更好”没有意义,讨论算法的优劣,必须针对具体的学习问题。

相关文章: