统计学习方法第一章学习笔记

1.统计学习

1.1特点

建立于计算机及网络之上
数据驱动
目的：对数据进行预测及分析
以方法为中心
综合概率论、统计学、信息论、计算理论、最优化理论及计算机科学

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

1.2对象

统计学习对象：数据
基本假设： 同类数据具有一定的统计规律性

1.3目的

对新数据进行预测和分析

1.4方法

常用方法：

监督学习（supervised learning）
非监督学习（unsupervised learning）
半监督学习（semi-supervised learning）
强化学习（reinforcement learning）

三要素：

模型（model）
策略（strategy）
算法（algorithm）

主要步骤：

得到一个有限训练数据集
确定包含所有可能模型的假设空间（学习模型的集合）
确定模型选择的准则（学习策略）
实现求解最优模型的算法（学习算法）
通过学习算法选择最优模型
对新数据进行预测和分析

2监督学习基本概念

2.1输入空间、特征空间、输出空间

输入空间：输入的所有可能取值
输出空间：输出的所有可能取值
特征空间：所有特征向量存在空间
特征向量：表示具体的实例

2.2联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) （基本假设）

2.3假设空间

假设空间：输入空间到输出空间的映射的集合

3 统计学习三要素

方法=模型+策略+算法

3.1模型

假设空间 $\mathcal{F}$

1）假设空间定义为决策函数的集合（非概率模型）

$\mathcal{F}=\{f|Y=f(X)\}$

X/Y：定义在输入空间 $\mathcal{X}$ 和输出空间 $\mathcal{Y}$ 上的随机变量，
此时 $\mathcal{F}$ 通常是由一个参数向量决定的函数族：

$\mathcal{F}=\{f|Y=f_\theta(X),\theta \in R^n\}$

2）假设空间定义为条件概率的集合（概率模型）

$\mathcal{F}=\{P|P(X,Y)\}$

X/Y：定义在输入空间 $\mathcal{X}$ 和输出空间 $\mathcal{Y}$ 上的随机变量，
此时 $\mathcal{F}$ 通常是由一个参数向量决定的条件概率分布族：

$\mathcal{F}=\{P|P_\theta(X,Y),\theta \in R^n\}$

3.2策略

1）损失函数、风险函数
损失函数（代价函数）L(Y,f(X))：度量预测错误的程度，为f(X)和Y的非负实值函数

常用损失函数：

0-1损失函数
$L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.$
平方损失函数
$L(Y, f(X))=(Y-f(X))^{2}$
绝对损失函数
$L(Y, f(X))=|Y-f(X)|$
对数损失函数/对数似然损失函数
$L(Y, P(Y | X))=-\log P(Y | X)$

风险函数/期望损失 $R_{\mathrm{exp}}(f)$ ：损失函数的期望
$R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X}\times\mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{d} y$

经验风险/经验损失 $R_{\mathrm{emp}}(f)$ ：f(X)关于训练数据集的平均损失
$R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

当N趋于无穷，经验风险 $R_{\mathrm{emp}}(f)$ 趋于期望风险 $R_{\mathrm{exp}}(f)$ 。

2）经验风险最小化与结构风险最小化

经验风险最小化：经验风险最小的模型即为最优模型，求解如下最优化问题：

$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

注意点：

样本容量大效果好，如极大似然估计
样本容量小有可能产生“过拟合”现象

结构风险最小化：等价于正则化，防止过拟合。在经验风险上加上正则化项或罚项。

结构风险： $R_{sm}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

注意点：

结构风险小需要经验风险与模型复杂度同时小
结构风险小对训练数据和测试数据都有较好的预测，如最大后验概率估计

3.3算法

学习模型的具体计算方法，也即求解最优化问题的算法

4.模型评估与模型选择

4.1 训练误差、测试误差

学习到的模型： $Y=\hat{f}(X)$

训练误差 $R_{\mathrm{emp}}(\hat{f})$ ：模型 $Y=\hat{f}(X)$ 关于训练集的平均损失：
$R_{\mathrm{emp}}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$

测试误差 $e_{\mathrm{test}}$ ：模型 $Y=\hat{f}(X)$ 关于测试集的平均损失：
$e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$

4.2 模型选择

避免出现过拟合并提高模型的预测能力

M次多项式函数拟合问题

训练误差和测试误差与模型复杂度的关系

5.正则化与交叉验证

5.1 正则化

正则化项一般为模型复杂度的单调递增函数，模型越复杂，正则化值越大。

一般形式： $\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

正则化项不同形式：
$L_2范数$ ： $L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\frac{\lambda}{2}\|w\|^{2}_2$
$L_1范数$ ： $L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\lambda\|w\|_{1}$

函数的p范数： $\|w\|_p=(\sum_{i=1}^{N}|x_i|^p)^{\frac{1}{p}}$

5.2 交叉验证

1）简单交叉验证
随机将数据集分为两部分：训练集—测试集。

2）S折交叉验证
随机将数据切分成S个互不相交的同大小子集，训练集（S-1）—测试集（剩余子集）。

3）留一交叉验证
S折交叉验证特殊情形：S=N（N：数据集容量），缺乏数据情况下使用。

6.泛化能力

学习到的模型： $Y=\hat{f}(X)$
泛化误差： $R_{\mathrm{exp}}(\hat{f})=E_{P}[L(Y, \hat{f}(X))]=\int_{\mathcal{X}\times\mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{d} y$

7.生成模型

监督学习方法可分为生成方法和判别方法。

生成模型：朴素贝叶斯方法、隐马尔可夫模型
特点：

可还原出联合概率分布P(X,Y)
学习收敛速度更快
存在隐变量，只能使用生成方法

判别模型：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场
特点：

不可还原出联合概率分布P(X,Y)
学习准确率更高
可以简化学习问题

8.分类问题

评价指标：分类准确率

二类问题常用评价指标：精确率、召回率
TP——将正类预测为正类数（正类：关注的类）
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率： $P=\frac{TP}{TP+FP}$
召回率： $R=\frac{TP}{TP+FN}$
$F_1$ 值： $\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}\quad\quad$ $F_1=\frac{2TP}{2TP+FP+FN}$ （精确率、召回率的调和均值）

9.标注问题

输入：观测序列
输出：标记序列/状态序列
常用方法：隐马尔可夫模型、条件随机场

10.回归问题

回归模型：从输入变量到输出变量之间映射的函数，等价于函数拟合。
常用损失函数：平方损失函数，此时可由最小二乘法求解。