UA MATH574M 统计学习I 监督学习理论下
这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数R(f)有界,则ERM具有一致性的充要条件是Remp(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到R(f),∀f∈F,即
n→∞limP{f∈Fsup(R(f)−Remp(f))>ϵ}=0,∀ϵ>0
定义VC-Entropy H(ϵ,n)之后,可以得到依概率双边一致收敛(这个比单边一致收敛更严格)
n→∞limP{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
n→∞limnH(ϵ,n)=0,∀ϵ>0
这一讲的目标是给出这个充要条件的充分性部分证明,让大家对ERM的一致性有更深刻的理解。
定理
P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp(−2nϵ2)
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式,如果
n→∞limnH(ϵ,n)=0,∀ϵ>0
则必有
2H(ϵ,n)exp(−2nϵ2)=2nH(ϵ,n)e−2nϵ2n→0,as n→∞
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。
Hoeffding’s inequality
为了证明那个概率不等式,需要先引入Hoeffding’s inequality,这里贴一张他古早的论文的图,我就不打公式了

这个不等式证明主要步骤是(2.1),这一步来自

(2.1)的上界来源于(1.7)给出的上界中最小的上界,(1.7)是Markov不等式,所以(2.1)式的思想就是找Xˉ的Chernoff Bound。我们需要考虑双边的概率,那么
P(∣Xˉ−p∣>ϵ)≤2exp(−2nϵ2)
证明
要用Hoeffding’s inequality,首先需要风险函数能被标准化为1,显然同样的Loss下,经验风险与真实的风险函数有同样的尺度,所以可以做scaling。
P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}
根据Bonferroni不等式
P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}≤f∈F∑P(∣R(f)−Remp(f)∣>ϵ)
根据Hoeffding’s inequality
f∈F∑P(∣R(f)−Remp(f)∣>ϵ)≤f∈F∑2exp(−2nϵ2)
显然这个上界就和选取的算法f无关了,因此这个上界就等于F的测度乘以2exp(−2nϵ2)。在监督学习理论中,F的测度并不能用实分析中的测度的概念,比如某类算法只有一个参数不同,参数的取值是所有自然数,并不代表F的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy,因此
f∈F∑2exp(−2nϵ2)=2H(ϵ,n)exp(−2nϵ2)