统计学习理论的意义
统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。
数学推导
设训练集S={(xi,yi)}mi=1,所有的(xi,yi)独立同分布(Independent and identical distribution),则我们可以定义分类器hθ测试误差(这里指的是在训练集上的误差)为(Empirical Risk):
ε^(hθ)=1m∑i=1mI(hθ(xi)≠yi)
其中,函数I(x)是一个示性函数,这个误差的定义非常好理解。
接着我们定义分类器hθ的增广误差为(Generalization Risk)
ε(hθ) =P(x,y)(h(x)≠y)=∫hθ(x,y)≠yp(x,y)dxdy
这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然,测试误差并不能反映真实情况。那么,测试误差与真实的误差之间有多大的差距呢?前人的研究得到这样的一个结论
P(|ε(hθ−ε^(hθ))|>δ)≤2e−2δ2m
也就是说,真实误差与测试误差之间相差大于δ的概率小于2e−2δ2m。上式右边与训练样本数m是相关的。训练样本越多,测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式,先看一个引理。
引理:设z1,z2,...,zm是 m个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1−ϕ (i=1~m)
定义:
ϕ^=1m∑i=1mzi
则有
P(|ϕ^−ϕ|>δ)≤2e−2δ2m
上式叫做Hoeffiding不等式,Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明:定义
zi=I(hθ(xi)≠yi)
P(zi=1)=ε(hθ)
而
ε^(hθ)=1m∑i=1mzi
所以
P(|ϕ^−ϕ|>δ)≤2e−2δ2m
假设对一个分类器h来说,hθ只有有限个取值,设取值个数为K。设H={hθ}θ=1→K,则
P(∃hθϵH,|ε(hθ)−ε(hθ)^|>δ)≤2Ke−2δ2m
P(∃hθϵH,|ε(hθ)−ε(hθ)^|<δ)≤1−2Ke−2δ2m
设2Ke−2r2m=δ,则有
r=1mlog(2Kg)−−−−−−−−−√
P(∃hθϵH,|ε(hθ)−ε(hθ)^|<1mlog(2Kg)−−−−−−−−−√)≤1−δ
定理:
假设θ^=argminθ ε^(hθ), θ∗=argminθ ε(hθ),则有
P(|ε(hθ^)−ε(hθ∗)|≤2r)>1−δ
P(|ε(hθ^)−ε(hθ∗)|≤1mlog(2Kg)−−−−−−−−−√)≥1−2δ
这样,我们就可以得到结论:
- 复杂的模型K大,但是ε(hθ∗)、ε(hθ^)变小
- 训练样本数m越多越好
补充:

VC维(Vapnik-Chervonenkis维)
衡量θ取无限值的分类器负责度
对m个样本任意的标(标签总数2m个),都有一个θ能把他们分开。满足上述条件的最大的m,叫做hθ的VC维(d=m)。
例子
线性分类器的VC维是d+1,假设样本对是(x,y),则d是x的维度。
定理:若假设空间H的VC维为d,则有:
P(|ε(hθ)−ε(hθ)^) ≤8dlog2med+8log4δm−−−−−−−−−−−−−−−−√>1−δ