机器学习（六）统计学习理论

统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导，从本质上说明了机器学习为什么会出现过拟合现象，以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集 $S = {(x_{i}, y_{i})}_{i = 1}^{m}$ ,所有的 $(x_{i}, y_{i})$ 独立同分布（Independent and identical distribution），则我们可以定义分类器 $h_{θ}$ 测试误差（这里指的是在训练集上的误差）为(Empirical Risk)：

\hat{ε} (h_{θ}) = \frac{1}{m} \sum_{i = 1}^{m} I (h_{θ} (x_{i}) \neq y_{i})

其中，函数

I (x)

是一个示性函数，这个误差的定义非常好理解。
接着我们定义分类器

h_{θ}

的增广误差为（Generalization Risk）

\begin{aligned} ε (h_{θ}) & = P_{(x, y)} (h (x) \neq y) \\ = \int_{h_{θ} (x, y) \neq y} p (x, y) d x d y \end{aligned}

这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然，测试误差并不能反映真实情况。那么，测试误差与真实的误差之间有多大的差距呢？前人的研究得到这样的一个结论

P (| ε (h_{θ} - \hat{ε} (h_{θ})) | > δ) \leq 2 e^{- 2 δ^{2} m}

也就是说，真实误差与测试误差之间相差大于

δ

的概率小于

2 e^{- 2 δ^{2} m}

。上式右边与训练样本数m是相关的。训练样本越多，测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式，先看一个引理。

引理：设 $z_{1}, z_{2}, . . ., z_{m}$ 是 $m$ 个独立随机变量，满足 $P (z_{i} = 1) = ϕ, P (z_{i} = 0) = 1 - ϕ$ (i=1~m)
定义：

\hat{ϕ} = \frac{1}{m} \sum_{i = 1}^{m} z_{i}

则有

P (| \hat{ϕ} - ϕ | > δ) \leq 2 e^{- 2 δ^{2} m}

上式叫做Hoeffiding不等式，Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明：定义

z_{i} = I (h_{θ} (x_{i}) \neq y_{i})

P (z_{i} = 1) = ε (h_{θ})

而

\hat{ε} (h_{θ}) = \frac{1}{m} \sum_{i = 1}^{m} z_{i}

所以

P (| \hat{ϕ} - ϕ | > δ) \leq 2 e^{- 2 δ^{2} m}

假设对一个分类器h来说， $h_{θ}$ 只有有限个取值，设取值个数为 $K$ 。设 $H = {h_{θ}}_{θ = 1 \to K}$ ,则

P (\exists h_{θ} ϵ H, | ε (h_{θ}) - \hat{ε (h_{θ})} | > δ) \leq 2 K e^{- 2 δ^{2} m}

P (\exists h_{θ} ϵ H, | ε (h_{θ}) - \hat{ε (h_{θ})} | < δ) \leq 1 - 2 K e^{- 2 δ^{2} m}

设

2 K e^{- 2 r^{2 m}} = δ

,则有

r = \sqrt{\frac{1}{m} \log (\frac{2 K}{g})}

P (\exists h_{θ} ϵ H, | ε (h_{θ}) - \hat{ε (h_{θ})} | < \sqrt{\frac{1}{m} \log (\frac{2 K}{g})}) \leq 1 - δ

定理：
假设 $\hat{θ} = a r g m i n_{θ} \hat{ε} (h_{θ})$ , $θ^{*} = a r g m i n_{θ} ε (h_{θ})$ ,则有

P (| ε (h_{\hat{θ}}) - ε (h_{θ^{*}}) | \leq 2 r) > 1 - δ

P (| ε (h_{\hat{θ}}) - ε (h_{θ^{*}}) | \leq \sqrt{\frac{1}{m} \log (\frac{2 K}{g})}) \geq 1 - 2 δ

这样，我们就可以得到结论：
- 复杂的模型K大，但是

ε (h_{θ^{*}})

、

ε (h_{\hat{θ}})

变小
- 训练样本数m越多越好

补充：
机器学习（六）统计学习理论

VC维（Vapnik-Chervonenkis维）

衡量 $θ$ 取无限值的分类器负责度
对m个样本任意的标（标签总数 $2^{m}$ 个），都有一个 $θ$ 能把他们分开。满足上述条件的最大的m,叫做 $h_{θ}$ 的VC维（d=m）。

例子
线性分类器的VC维是 $d + 1$ ，假设样本对是 $(x, y)$ ,则d是x的维度。

定理：若假设空间H的VC维为d，则有：

\begin{aligned} P (| ε (h_{θ}) - \hat{ε (h_{θ})}) & \leq \sqrt{\frac{8 d \log \frac{2 m e}{d} + 8 \log \frac{4}{δ}}{m}} \\ > 1 - δ \end{aligned}