第一章 统计学习方法概论
1. 统计学习
- 数据:计算机及互联网上的各种数字、文字、图像、视 频、音频数据以及它们的组合。
- 数据的基本假设是同类数据具有一定的统计规律性。
- 统计学习的目的:用于对数据(特别是未知数据)进行预测和分析。
统计学习的方法:
- 监督学习
- 多用于分类、标注与回归问题中
- 非监督学习
- 半监督学习
- 强化学习:
- 非监督学习的一种,随机采取一个动作,根据得到的反馈,来决定策略:继续该动作或是换个动作。如:给瓜苗浇水,如果瓜苗变得好了,就继续浇水。
统计学习的研究
- 统计学习方法:决策树、HMM等
- 统计学习理论:统计学习方法的有效性和效率和基本理论
- 统计学习应用:如好瓜&坏瓜
2. 监督学习
- 实例:如西瓜A
- 特征向量:多个特征形成一个列向量
- 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),对于学习系统来说,联合概率分布P(X,Y)是未知的
3. 统计学习三要素
- 模型
- 策略
- 算法
注:以下的三要素主要针对的是监督学习,这本书主要针对的也是监督学习
3.1 模型
- 决策函数:在分类问题中,能将样本区分开的
- 假设空间:所有可行的函数的集合,在y = f(x)中,针对的是f
3.2 策略
-
目的:X----f---->Y 找到X,Y之间的映射关系f
-
损失: 预测值与真实值之间的差异
-
损失函数:一次预测的好坏 L(f(x),Y) —— 针对单个样本
- 常用的损失函数:
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
- 常用的损失函数:
-
损失函数的期望(风险函数): R_exp(f) = E_p[L(Y,f(x))] —— 针对整个样本空间
- 策略是想让损失函数的期望最小化,但是由于一般只能拿到部分样本,于是用已知样本的均值来代替,于是引出了经验风险
-
经验风险:模型f(X)关于训练数据集的平均损失
- 但是,经验风险最小化时,在小样本数据集的情况下,容易形成过拟合,于是引入结构风险
- 经验风险最小化的例子: 极大似然估计
-
结构风险最小化:为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或罚项
- 结构风险最小化的一个例子:贝叶斯估计中的最大后验概率估计
- 支持向量机就是基于此提出来的
3.3 算法
- 求解最优化问题:求使结构风险最小化的参数
4. 模型评估与模型选择
- 对上图中的参数w_j(j =0,…,m)求导
5. 正则化与交叉验证
- 正则化:结构风险最小化策略的实现
- 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
5.1 交叉验证
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
6. 泛化能力
- 定义:是指该方法学习到的模型对未知数据的预测能力
6.1 泛化误差上界
- 比较学习方法的泛化能力------比较泛化误差上界
- 性质:
- 样本容量增加,泛化误差趋于0
- 假设空间容量越大, 泛化误差越大
7. 生成模型与判别模型
7.1 生成模型:
- 生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X),作为预测的模型
- 典型的生成模型:
- 朴素贝叶斯法
- 隐马尔科夫模型
7.2 判别模型
- 判别方法由数据直接学习决策函数f(X)或条件概率分布
P(Y|X)作为预测的模型 - 典型的判别模型;
- K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
7.3 两者各自的优缺点
- 生成方法:可还原出联合概率分布P(X,Y), 而判别方法不能。 生成方法的收敛速度更快,当样本容量增加的时候,学到的 模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。
- 判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X), 可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。
8. 分类问题
- 二分类评价指标
- TP true positive
- FN false negative
- FP false positive
- TN true negative
- 精确率:精度,precision
- P = TP/(TP+FP)
- 召回率: Recall
- R = TP/(TP+FN)
- 计算正样本有多少个被检索出来的概率
- F1值:精度和召回率的调和均值
- 2/F1 = 1/P + 1/R
9. 标注问题
- 输入:观测序列 输出:标记序列或状态序列
10. 回归问题
- 等价于函数拟合
- 最常用的损失函数是平方损失函数