《统计学习方法》第一章统计学习方法概论

第一章统计学习方法概论

1. 统计学习

数据：计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。
数据的基本假设是同类数据具有一定的统计规律性。
统计学习的目的：用于对数据（特别是未知数据）进行预测和分析。

统计学习的方法：

监督学习
- 多用于分类、标注与回归问题中
非监督学习
半监督学习
强化学习：
- 非监督学习的一种，随机采取一个动作，根据得到的反馈，来决定策略：继续该动作或是换个动作。如：给瓜苗浇水，如果瓜苗变得好了，就继续浇水。

统计学习的研究

统计学习方法：决策树、HMM等
统计学习理论：统计学习方法的有效性和效率和基本理论
统计学习应用：如好瓜&坏瓜

2. 监督学习

实例：如西瓜A
特征向量：多个特征形成一个列向量
假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),对于学习系统来说，联合概率分布P(X,Y)是未知的

3. 统计学习三要素

模型
策略
算法
注：以下的三要素主要针对的是监督学习，这本书主要针对的也是监督学习

3.1 模型

决策函数：在分类问题中，能将样本区分开的
假设空间：所有可行的函数的集合，在y = f(x)中，针对的是f

3.2 策略

目的：X----f---->Y 找到X,Y之间的映射关系f
损失：预测值与真实值之间的差异
损失函数：一次预测的好坏 L(f(x),Y) —— 针对单个样本
- 常用的损失函数：
  - 0-1损失函数
  - 平方损失函数
  - 绝对损失函数
  - 对数损失函数
损失函数的期望（风险函数）： R_exp(f) = E_p[L(Y,f(x))] —— 针对整个样本空间
- 策略是想让损失函数的期望最小化，但是由于一般只能拿到部分样本，于是用已知样本的均值来代替，于是引出了经验风险
经验风险：模型f(X)关于训练数据集的平均损失
- 但是，经验风险最小化时，在小样本数据集的情况下，容易形成过拟合，于是引入结构风险
- 经验风险最小化的例子：极大似然估计
结构风险最小化：为了防止过拟合，在经验风险上加上表示模型复杂度的正则化项或罚项
- 结构风险最小化的一个例子：贝叶斯估计中的最大后验概率估计
- 支持向量机就是基于此提出来的

3.3 算法

求解最优化问题：求使结构风险最小化的参数

4. 模型评估与模型选择

《统计学习方法》第一章统计学习方法概论

对上图中的参数w_j(j =0,…,m)求导

5. 正则化与交叉验证

正则化：结构风险最小化策略的实现
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大

5.1 交叉验证

简单交叉验证
S折交叉验证
留一交叉验证

6. 泛化能力

定义：是指该方法学习到的模型对未知数据的预测能力

6.1 泛化误差上界

比较学习方法的泛化能力------比较泛化误差上界
性质：
- 样本容量增加，泛化误差趋于0
- 假设空间容量越大，泛化误差越大

7. 生成模型与判别模型

7.1 生成模型：

生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)，作为预测的模型
典型的生成模型：
- 朴素贝叶斯法
- 隐马尔科夫模型

7.2 判别模型

判别方法由数据直接学习决策函数f(X)或条件概率分布
P(Y|X)作为预测的模型
典型的判别模型；
- K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

7.3 两者各自的优缺点

生成方法：可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的收敛速度更快，当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以使用生成方法，而判别方法则不能用。
判别方法：直接学习到条件概率或决策函数，直接进行预测，往往学习的准确率更高；由于直接学习Y=f(X)或P(Y|X), 可对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习过程。

8. 分类问题

《统计学习方法》第一章统计学习方法概论

二分类评价指标
- TP true positive
- FN false negative
- FP false positive
- TN true negative
精确率：精度，precision
- P = TP/(TP+FP)
召回率: Recall
- R = TP/(TP+FN)
- 计算正样本有多少个被检索出来的概率
F1值：精度和召回率的调和均值
- 2/F1 = 1/P + 1/R

9. 标注问题

输入：观测序列输出：标记序列或状态序列

10. 回归问题

等价于函数拟合
最常用的损失函数是平方损失函数

相关文章：

2021-08-14
2021-09-15
2021-08-25
2021-04-20
2022-12-23
2021-07-07
2022-12-23

猜你喜欢

2021-09-21
2021-06-23
2021-05-12
2021-08-14
2021-05-28

相关资源

下载 2023-01-02
下载 2021-06-06
下载 2021-07-01
下载 2022-12-31

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode