统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集S={(xi,yi)}i=1m,所有的(xi,yi)独立同分布(Independent and identical distribution),则我们可以定义分类器hθ测试误差(这里指的是在训练集上的误差)为(Empirical Risk):

ε^(hθ)=1mi=1mI(hθ(xi)yi)

其中,函数I(x)是一个示性函数,这个误差的定义非常好理解。
接着我们定义分类器hθ的增广误差为(Generalization Risk)
ε(hθ)=P(x,y)(h(x)y) =hθ(x,y)yp(x,y)dxdy

这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然,测试误差并不能反映真实情况。那么,测试误差与真实的误差之间有多大的差距呢?前人的研究得到这样的一个结论
P(|ε(hθε^(hθ))|>δ)2e2δ2m

也就是说,真实误差与测试误差之间相差大于δ的概率小于2e2δ2m。上式右边与训练样本数m是相关的。训练样本越多,测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式,先看一个引理。

引理:设z1,z2,...,zmm个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1ϕ  (i=1~m)
定义:

ϕ^=1mi=1mzi

则有
P(|ϕ^ϕ|>δ)2e2δ2m

上式叫做Hoeffiding不等式,Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明:定义
zi=I(hθ(xi)yi)

P(zi=1)=ε(hθ)


ε^(hθ)=1mi=1mzi

所以
P(|ϕ^ϕ|>δ)2e2δ2m


假设对一个分类器h来说,hθ只有有限个取值,设取值个数为K。设H={hθ}θ=1K,则

P(hθϵH,|ε(hθ)ε(hθ)^|>δ)2Ke2δ2m

P(hθϵH,|ε(hθ)ε(hθ)^|<δ)12Ke2δ2m

2Ke2r2m=δ,则有
r=1mlog(2Kg)

P(hθϵH,|ε(hθ)ε(hθ)^|<1mlog(2Kg))1δ

定理:
假设θ^=argminθ ε^(hθ), θ=argminθ ε(hθ),则有

P(|ε(hθ^)ε(hθ)|2r)>1δ

P(|ε(hθ^)ε(hθ)|1mlog(2Kg))12δ

这样,我们就可以得到结论:
- 复杂的模型K大,但是ε(hθ)ε(hθ^)变小
- 训练样本数m越多越好

补充:
机器学习(六)统计学习理论

VC维(Vapnik-Chervonenkis维)

衡量θ取无限值的分类器负责度
对m个样本任意的标(标签总数2m个),都有一个θ能把他们分开。满足上述条件的最大的m,叫做hθ的VC维(d=m)。

例子
线性分类器的VC维是d+1,假设样本对是(x,y),则d是x的维度。

定理:若假设空间H的VC维为d,则有:

P(|ε(hθ)ε(hθ)^)8dlog2med+8log4δm >1δ

相关文章:

  • 2021-05-18
  • 2021-12-03
  • 2022-01-22
  • 2022-12-23
  • 2021-09-05
  • 2021-11-22
猜你喜欢
  • 2021-06-23
  • 2021-06-19
  • 2021-04-01
  • 2022-02-04
  • 2021-07-26
  • 2021-08-14
  • 2022-12-23
相关资源
相似解决方案