UA MATH574M 统计学习I 监督学习理论下


这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数R(f)R(f)有界,则ERM具有一致性的充要条件是Remp(f)R_{emp}(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到R(f)R(f)fF\forall f \in \mathbf{F},即
limnP{supfF(R(f)Remp(f))>ϵ}=0,ϵ>0 \lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0
定义VC-Entropy H(ϵ,n)H(\epsilon,n)之后,可以得到依概率双边一致收敛(这个比单边一致收敛更严格)
limnP{supfF(R(f)Remp(f))>ϵ}=0,ϵ>0 \lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0
的充要条件是
limnH(ϵ,n)n=0,ϵ>0 \lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0
这一讲的目标是给出这个充要条件的充分性部分证明,让大家对ERM的一致性有更深刻的理解。

定理
P{supfF(R(f)Remp(f))>ϵ}2H(ϵ,n)exp(2nϵ2)P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} \le 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right)
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式,如果
limnH(ϵ,n)n=0,ϵ>0 \lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0
则必有
2H(ϵ,n)exp(2nϵ2)=2H(ϵ,n)nne2nϵ20,as n 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right) = 2 \frac{H(\epsilon,n)}{n} \frac{n}{e^{-2n\epsilon^2}} \to 0,as\ n\to \infty
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。

Hoeffding’s inequality

为了证明那个概率不等式,需要先引入Hoeffding’s inequality,这里贴一张他古早的论文的图,我就不打公式了
UA MATH574M 统计学习I 监督学习理论下
这个不等式证明主要步骤是(2.1),这一步来自
UA MATH574M 统计学习I 监督学习理论下
(2.1)的上界来源于(1.7)给出的上界中最小的上界,(1.7)是Markov不等式,所以(2.1)式的思想就是找Xˉ\bar{X}的Chernoff Bound。我们需要考虑双边的概率,那么
P(Xˉp>ϵ)2exp(2nϵ2)P(|\bar{X}-p|>\epsilon) \le 2\exp (-2n\epsilon^2)

证明

要用Hoeffding’s inequality,首先需要风险函数能被标准化为1,显然同样的Loss下,经验风险与真实的风险函数有同样的尺度,所以可以做scaling。
P{supfF(R(f)Remp(f))>ϵ}=P{fF(R(f)Remp(f)>ϵ)}P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} = P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \}
根据Bonferroni不等式
P{fF(R(f)Remp(f)>ϵ)}fFP(R(f)Remp(f)>ϵ)P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \} \le \sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon)
根据Hoeffding’s inequality
fFP(R(f)Remp(f)>ϵ)fF2exp(2nϵ2)\sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon) \le \sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2)
显然这个上界就和选取的算法ff无关了,因此这个上界就等于F\mathbf{F}的测度乘以2exp(2nϵ2)2\exp (-2n\epsilon^2)。在监督学习理论中,F\mathbf{F}的测度并不能用实分析中的测度的概念,比如某类算法只有一个参数不同,参数的取值是所有自然数,并不代表F\mathbf{F}的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy,因此
fF2exp(2nϵ2)=2H(ϵ,n)exp(2nϵ2)\sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2) = 2H(\epsilon,n)\exp (-2n\epsilon^2)

相关文章:

  • 2021-06-12
  • 2021-08-26
  • 2021-04-30
  • 2021-04-06
  • 2021-07-02
  • 2022-12-23
  • 2022-12-23
  • 2021-09-27
猜你喜欢
  • 2022-01-13
  • 2022-01-20
  • 2022-02-17
  • 2022-12-23
  • 2021-10-13
  • 2021-06-11
相关资源
相似解决方案