周志华机器学习 Day21

计算学习理论

基础知识

计算学习理论研究的是关于通过“计算”来进行“学习”的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。

后面需要用到的几个常用不等式为：

周志华机器学习 Day21

PAC学习

概率近似正确（简称PAC）是计算学习理论中最基本的学习理论。

1、PAC辨识

对0<ε，δ<1，所有c∈C和分布D，若存在学习算法ζ，其输出假设h∈H满足

周志华机器学习 Day21

则称学习算法ζ能从假设空间H中PAC辨识概念类C。

2、PAC可学习

令m表示从分布D中独立同分布采样得到的样例数目，0<ε，δ<1，对所有分布D，若存在学习算法ζ和多项式poly（·，·，·，·），使得对于任何m≥poly（1/ε,1/δ,size(x),size(c)）,ζ能从假设空间H中PAC辨识概念类C，则称概念类C对假设空间H而言是PAC可学习的，有时也简称概念类C是PAC可学习的。

3、样本复杂度

满足PAC学习算法ζ所需的m≥poly（1/ε,1/δ,size(x),size(c)）中最小的m，称为学习算法ζ的样本复杂度。

有限假设空间

1、可分情形

可分情形意味着目标概念c属于假设空间H。给定包含m个样例的训练集D，如何找出满足误差参数的假设呢?

容易想到一种简单的学习策略：既然D中样例标记都是由目标概念c赋予的，并且c存在于假设空间H中，那么，任何在训练集D上出现标记错误的假设肯定不是目标概念c。于是，我们只需保留与D一致的假设，剔除与D不一致的假设即可。若训练集D足够大，则可不短借助D中的样例剔除不一致的假设，知道H中仅剩下一个假设为止，这个假设就是目标概念c。

通过一系列推导，可得到所需样例数目如下

周志华机器学习 Day21

2、不可分情形

对较为困难的学习问题，目标概念c往往不存在于假设空间H中。假定对于任何h∈H，周志华机器学习 Day21 ，也就是说，H中的任意一个假设都会在训练集上出现或多或少的错误，由Hoeffding不等式可知：

周志华机器学习 Day21