UA MATH574M 统计学习I 监督学习理论下

Hoeffding’s inequality
证明

这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数

R(f)

有界，则ERM具有一致性的充要条件是

R_{emp}(f)

依概率单边一致收敛（uniformly one-sided convergence in probability）到

R(f)

，

\forall f \in \mathbf{F}

，即

\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0

定义VC-Entropy

H(\epsilon,n)

之后，可以得到依概率双边一致收敛（这个比单边一致收敛更严格）

\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0

的充要条件是

\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0

这一讲的目标是给出这个充要条件的充分性部分证明，让大家对ERM的一致性有更深刻的理解。

定理
$P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} \le 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right)$
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式，如果
$\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0$
则必有
$2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right) = 2 \frac{H(\epsilon,n)}{n} \frac{n}{e^{-2n\epsilon^2}} \to 0,as\ n\to \infty$
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。

Hoeffding’s inequality

为了证明那个概率不等式，需要先引入Hoeffding’s inequality，这里贴一张他古早的论文的图，我就不打公式了
UA MATH574M 统计学习I 监督学习理论下
这个不等式证明主要步骤是(2.1)，这一步来自

(2.1)的上界来源于(1.7)给出的上界中最小的上界，(1.7)是Markov不等式，所以(2.1)式的思想就是找 $\bar{X}$ 的Chernoff Bound。我们需要考虑双边的概率，那么
$P(|\bar{X}-p|>\epsilon) \le 2\exp (-2n\epsilon^2)$

证明

要用Hoeffding’s inequality，首先需要风险函数能被标准化为1，显然同样的Loss下，经验风险与真实的风险函数有同样的尺度，所以可以做scaling。
$P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} = P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \}$
根据Bonferroni不等式
$P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \} \le \sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon)$
根据Hoeffding’s inequality
$\sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon) \le \sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2)$
显然这个上界就和选取的算法 $f$ 无关了，因此这个上界就等于 $\mathbf{F}$ 的测度乘以 $2\exp (-2n\epsilon^2)$ 。在监督学习理论中， $\mathbf{F}$ 的测度并不能用实分析中的测度的概念，比如某类算法只有一个参数不同，参数的取值是所有自然数，并不代表 $\mathbf{F}$ 的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy，因此
$\sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2) = 2H(\epsilon,n)\exp (-2n\epsilon^2)$