第一章 统计学习方法概论

1. 统计学习

  • 数据:计算机及互联网上的各种数字、文字、图像、视 频、音频数据以及它们的组合。
  • 数据的基本假设是同类数据具有一定的统计规律性。
  • 统计学习的目的:用于对数据(特别是未知数据)进行预测和分析。

统计学习的方法:

  • 监督学习
    • 多用于分类、标注与回归问题中
  • 非监督学习
  • 半监督学习
  • 强化学习:
    • 非监督学习的一种,随机采取一个动作,根据得到的反馈,来决定策略:继续该动作或是换个动作。如:给瓜苗浇水,如果瓜苗变得好了,就继续浇水。

统计学习的研究

  • 统计学习方法:决策树、HMM等
  • 统计学习理论:统计学习方法的有效性和效率和基本理论
  • 统计学习应用:如好瓜&坏瓜

2. 监督学习

  • 实例:如西瓜A
  • 特征向量:多个特征形成一个列向量
  • 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),对于学习系统来说,联合概率分布P(X,Y)是未知的
    《统计学习方法》 第一章 统计学习方法概论

3. 统计学习三要素

  • 模型
  • 策略
  • 算法
    注:以下的三要素主要针对的是监督学习,这本书主要针对的也是监督学习

3.1 模型

  • 决策函数:在分类问题中,能将样本区分开的
  • 假设空间:所有可行的函数的集合,在y = f(x)中,针对的是f

3.2 策略

  • 目的:X----f---->Y 找到X,Y之间的映射关系f

  • 损失: 预测值与真实值之间的差异

  • 损失函数:一次预测的好坏 L(f(x),Y) —— 针对单个样本

    • 常用的损失函数:
      • 0-1损失函数
      • 平方损失函数
      • 绝对损失函数
      • 对数损失函数
  • 损失函数的期望(风险函数): R_exp(f) = E_p[L(Y,f(x))] —— 针对整个样本空间

    • 策略是想让损失函数的期望最小化,但是由于一般只能拿到部分样本,于是用已知样本的均值来代替,于是引出了经验风险
  • 经验风险:模型f(X)关于训练数据集的平均损失

    • 但是,经验风险最小化时,在小样本数据集的情况下,容易形成过拟合,于是引入结构风险
    • 经验风险最小化的例子: 极大似然估计
  • 结构风险最小化:为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或罚项

    • 结构风险最小化的一个例子:贝叶斯估计中的最大后验概率估计
    • 支持向量机就是基于此提出来的

3.3 算法

  • 求解最优化问题:求使结构风险最小化的参数

4. 模型评估与模型选择

《统计学习方法》 第一章 统计学习方法概论

  • 对上图中的参数w_j(j =0,…,m)求导
    《统计学习方法》 第一章 统计学习方法概论

5. 正则化与交叉验证

  • 正则化:结构风险最小化策略的实现
  • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
    《统计学习方法》 第一章 统计学习方法概论

5.1 交叉验证

  • 简单交叉验证
  • S折交叉验证
  • 留一交叉验证

6. 泛化能力

  • 定义:是指该方法学习到的模型对未知数据的预测能力

6.1 泛化误差上界

  • 比较学习方法的泛化能力------比较泛化误差上界
  • 性质:
    • 样本容量增加,泛化误差趋于0
    • 假设空间容量越大, 泛化误差越大

7. 生成模型与判别模型

7.1 生成模型:

  • 生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X),作为预测的模型
  • 典型的生成模型:
    • 朴素贝叶斯法
    • 隐马尔科夫模型

7.2 判别模型

  • 判别方法由数据直接学习决策函数f(X)或条件概率分布
    P(Y|X)作为预测的模型
  • 典型的判别模型;
    • K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

7.3 两者各自的优缺点

  • 生成方法:可还原出联合概率分布P(X,Y), 而判别方法不能。 生成方法的收敛速度更快,当样本容量增加的时候,学到的 模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。
  • 判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X), 可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。

8. 分类问题

《统计学习方法》 第一章 统计学习方法概论

  • 二分类评价指标
    • TP true positive
    • FN false negative
    • FP false positive
    • TN true negative
  • 精确率:精度,precision
    • P = TP/(TP+FP)
  • 召回率: Recall
    • R = TP/(TP+FN)
    • 计算正样本有多少个被检索出来的概率
  • F1值:精度和召回率的调和均值
    • 2/F1 = 1/P + 1/R

9. 标注问题

  • 输入:观测序列 输出:标记序列或状态序列

10. 回归问题

  • 等价于函数拟合
  • 最常用的损失函数是平方损失函数

相关文章: