【笔记】《统计学习方法》(1)概论

本来因为在CSDN里上传图片很麻烦，所以转到简书了。结果简书居然还不支持Latex和目录TOC、、、公式比较多的只好回到CSDN了
《统计学习方法》是学习机器学习原理的“必修课”，抽出点时间把之前看的时候的标注数字化一下，供自己以后回忆用…主概念、理解和算法，不记推导
简书：https://www.jianshu.com/p/eb9d50312de8

第1章统计学习方法概论

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)
统计学习的对象是数据(data)。从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去
统计学习关于数据的基本假设是：同类数据具有一定的统计规律性
统计学习的目标：考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时考虑尽可能地提高学习效率
!!!监督学习(supervised learning)：从给定的、有限的、用于学习的训练数据(training data)集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间(hypothesis space)；应用某个评价准则(evaluation criterion)，从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据(test data)再给定的评价准则下有最优的预测；最优模型的选取由算法实现。
实现统计学习方法的步骤：
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间，即学习模型的集合
- 确定模型选择的准则，即学习的策略
- 实现求解最优模型的算法，即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
监督学习中，输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)
每个具体的输入是一个实例(instance)，通常由特征向量(feature vector)表示。所有特征向量存在的空间称为特征空间(feature space)。模型实际上是定义在特征空间上的
监督学习从训练数据(training data)集合中学习模型，对测试数据(test data)进行预测，输入与输出对又称为样本(sample)或样本点。 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ 。目的在于学习一个由输入到输出的映射
监督学习中，假设训练数据和预测数据是依联合概率分布 $P (X, Y)$ 独立同分布产生的。学习过程中，学习系统利用给定的训练数据集，通过学习(或训练)得到一个模型，表示为条件概率分布 $\hat{P} (Y | X)$ 或决策函数 $Y = \hat{f} (X)$ ，描述输入与输出随机变量之间的映射关系
(统计学习)方法=模型(model)+策略(strategy)+算法(algorithm)
模型：模型就是所要学习的条件概率分布或决策函数。则假设空间定义为集合 $F = {f | Y = f (X)}$ 或 $F = {P | P (Y | X)}$ 。由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。
策略：按照什么准则学习或选择最优额模型。监督学习的基本策略——经验风险最小化(empirical risk minimization, ERM)和结构风险最小化(structural risk minimization, SRM)
用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。记做 $L (Y, f (X))$
- 0-1损失函数(0-1 loss function)
$L (Y, f (X)) = {\begin{matrix} 1, & Y \neq f (X) \\ 0, & Y = f (X) \end{matrix}$
- 平方损失函数(quadratic loss function)
$L (Y, f (X)) = (Y - f (X))^{2}$
- 绝对损失函数(absolute loss function)
$L (Y, f (X)) = | Y - f (X) |$
- 对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
$L (Y, P (Y | X)) = - \log P (Y | X)$
风险函数(risk function)或期望损失(expected loss)是理论上模型 $f (X)$ 关于联合分布 $P (X, Y)$ 的平均意义下的损失
$R_{e x p} (f) = E_{p} [L (Y, f (X))] = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y$
学习的目标就是选择期望风险最小的模型。联合分布 $P (X, Y)$ 未知，故病态。
经验风险(empirical risk)或经验损失(empirical loss)为
$R_{e m p} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))$
期望风险 $R_{e x p} (f)$ 是模型关于联合分布的期望损失，经验风险 $R_{e m p} (f)$ 是模型关于训练样本集的平均损失。根据大数定律，样本容量N趋于无穷时，经验风险 $R_{e m p} (f)$ 趋于期望风险 $R_{e x p} (f)$
结构风险在经验风险上增加了正则化项(regularizer)或罚项(penalty term)， $J (f)$ 为模型的复杂度，表示了对复杂模型的惩罚。 $λ \geq 0$ 是系数，权衡经验风险和模型复杂度
$R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)$
经验风险最小化策略认为，经验风险最小的模型是最优模型，即求最优化问题(目标函数)。当样本容量小时，易过拟合(over-fitting)
$min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))$
极大似然估计(maximum likelihood estimation)是经验风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。
结构风险最小化策略为防止过拟合提出，等价于正则化(regularization)，结构风险小的模型往往对训练数据和测试数据都有较好的预测。即求解最优化问题(目标函数)
$min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)$
算法：指学习模型的具体计算方法。统计学习问题归结为最优化问题，统计学习算法成为求解最优化问题的算法。
统计学习方法具体采用的损失函数未必是评估时使用的损失函数。当然，两者一致比较理想。
将学习方法对未知数据的预测能力称为泛化能力(generalization ability)
过拟合指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测的很好，但对未知数据预测得很差额现象。
模型选择(model selection)旨在避过拟合并提高模型的预测能力。常用的两种模型选择方法：正则化和交叉验证
正则化是结构风险最小化策略的实现，作用是选择经验风险和模型复杂同时较小的模型，符合奥卡姆剃刀(Occam’s razor)原理——能够很好地解释已知数据并十分简单的才是最好的模型。正则化项一般是模型复杂度的单调递增函数，如参数向量的范数， $‖ w ‖$ 为参数向量w的 $L_{2}$ 范数， $‖ w ‖_{1}$ 为 $L_{1}$ 范数。
$L (w) = \frac{1}{N} \sum_{i = 1}^{N} (f (x_{i}; w) - y_{i})^{2} + \frac{λ}{2} ‖ w ‖^{2} L (w) = \frac{1}{N} \sum_{i = 1}^{N} (f (x_{i}; w) - y_{i})^{2} + λ ‖ w ‖_{1}$
补：范数
- 0范数，向量中非零元素的个数。
- 1范数，为绝对值之和。
- 2范数，就是通常意义上的模。
- p范数， $‖ x ‖_{p} = (\sum_{i = 1}^{N} | x_{i} |^{p})^{\frac{1}{p}}$
- $\infty$ 范数， $‖ x ‖_{\infty} = a r g max_{i} | x_{i} |$
交叉验证(cross validation)：重复使用数据组合训练集、测试集，在此基础上反复进行训练、测试以及模型选择。
- 简单交叉验证：随机分为两部分，如70%:30%，选择测试误差最小模型
- K折交叉验证：且分为K份，每次K-1份训练，1份测试，重复进行K次，选择测试误差最小的那个模型
- 留一交叉验证：K折交叉验证的特例，共N折(N为数据容量)，每次1个样本测试
泛化误差(generalization error)反映学习方法的泛化能力，公式如下，即所学到的模型的期望风险， $\hat{f}$ 为习得的模型。
$R_{e x p} (\hat{f}) = E_{p} [L (Y, \hat{f} (X))] = \int_{X \times Y} L (y, \hat{f} (x)) P (x, y) d x d y$
泛化能力分析往往通过泛化误差上界(generalization error bound)进行，它是样本容量的函数，当样本容量增加时，泛化上界趋于0；是假设空间容量的函数，假设空间容量越大，模型越难学，泛化误差上界越大。
监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)，所学到的模型称为生成模型(generative model)和判别模型(discriminative model)
生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y | X)$ 作为预测的模型，即生成模型。如：朴素贝叶斯法、隐马尔科夫模型。
$P (Y | X) = \frac{P (X, Y)}{P (X)}$
判别方法由数据慧姐学习决策决策函数 $f (X)$ 或条件概率分布 $P (Y | X)$ 作为预测模型，即判别模型。如：k近邻法、感知机、决策树、逻辑斯蒂回归模型。
生成方法的特点：可以还原出联合概率分布 $P (X, Y)$ ，判别方法不能；学习收敛速度快，当样本容量增加时，学到的模型收敛更快；存在隐变量时，仍可以使用，而判别方法不能。判别方法的特点：直接学习，准确率往往更高；可以对数据进行各种程度的抽象、定义特征和使用，简化学习问题。
回归问题的学习等价于函数拟合
评价指标，如精确率(precision)/查准率，和召回率(recall)/查全率

实际\预测	正	反
正	TP(真正例)	FN(假反例)
反	FP(假正例)	TN(真反例)

精确率为

P = \frac{T P}{T P + F P}

召回率为

R = \frac{T P}{T P + F N}

F_{1}

值为P和R的调和均值

\frac{2}{F_{1}} = \frac{1}{P} + \frac{1}{R} F_{1} = \frac{2 T P}{2 T P + F P + F N}

第1章 统计学习方法概论

第1章统计学习方法概论