泛化:学得模型适用于新样本的能力。
假设空间:属性可能取值的集合。
如西瓜问题中,(色泽=青绿;根蒂=蜷缩;敲声=浊响)是一个假设空间,(色泽=*;根蒂=蜷缩;敲声=浊响)也是一个假设空间,*表示无论取什么值都合适。
现实问题中,可能存在多个假设空间与训练集一致,与训练集一致的假设空间集合称为版本空间
偏好(归纳偏好):机器学习算法在学习过程中对某种类型假设的偏好。
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。

误差:学习器的实际预测输出与样本的真实输出之间的差异。学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差。

过拟合:学习器将训练样本自身的特点当作了一般性质,导致泛化能力下降。
欠拟合:指学习器对训练样本的一般性质未学好。

模型评估方法

留出法:直接将数据集划分为两个互斥的训练集S和测试集T,在S上训练模型,用T来评估测试误差作为对泛化误差的估计。注意一般采用分层抽样的方式划分数据集,以保留数据在划分后的集合上分布的一致性,避免因数据划分而额外引入的偏差。
交叉验证法(cross validation):即k者交叉验证,指将数据集以分层采样的方式划分为k个大小相近的互斥子集,每次用k-1个子集的并集作为训练集,余下的作为测试集,进行k次训练与测试,最终返回k个测试结果的均值。
自助(采样)法:即有放回地从包含m个样本的数据集中随机抽取m次,得到与原数据集一样大小的数据集作为训练集,未被采到的数据作为测试集(求极限可得约有36.8%的样本未被采到),这样的测试结果称为包外估计(out-of-bag estimate)自助法适用于数据集较小的情况;自助法产生的数据集改变了数据分布,会引入估计偏差。

模型性能度量

衡量模型泛化能力的评价标准。

  1. 回归任务:均方误差
    机器学习笔记-基本概念
    对于数据分布D和概率密度p(.):
    机器学习笔记-基本概念
  2. 分类任务
    • 错误率与精度
      错误率:分类错误的样本数占样本总数的比例
      机器学习笔记-基本概念
      精度:分类正确的样本数占样本总数的比例
      机器学习笔记-基本概念
      对于数据分布D和概率密度p(.):
      机器学习笔记-基本概念
      机器学习笔记-基本概念
    • 查准率(准确率)、查全率(召回率)与F
      机器学习笔记-基本概念
      根据上表可以得到查准率P和查全率R的定义:
      机器学习笔记-基本概念
      P-R图:若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者
      机器学习笔记-基本概念
      F1度量:
      机器学习笔记-基本概念
      Fb度量:F1的一般形式,表示对查准率/查全率的不同偏好
      机器学习笔记-基本概念
    • ROC与AUC
      ROC曲线的纵轴是“真正例率”TPR,横轴是“假正例率”FPR:
      机器学习笔记-基本概念
      AUC(Area Under ROC Curve):ROC曲线的下面积
      机器学习笔记-基本概念
    • 代价敏感错误率与代价曲线
      目的:权衡不同类型的错误所造成的不同损失
      costij表示将第i类样本预测为第j类样本的代价,下图是二分类代价矩阵:
      机器学习笔记-基本概念
      我们希望最小化总体代价
      机器学习笔记-基本概念
      代价曲线:
      横轴是取值为[0,1]的正例概率代价(p是样例为正例的概率):
      机器学习笔记-基本概念
      纵轴是取值为[0,1]的归一化代价(其中FPR是假正例率,FNR=1-TPR是假反例率):
      机器学习笔记-基本概念
      则代价曲线(图中红色曲线):
      机器学习笔记-基本概念
泛化性能:偏差-方差分解

偏差:学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合能力
机器学习笔记-基本概念
方差:同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响
机器学习笔记-基本概念
噪声:当前任务上任何学习算法所能达到的期望泛化误差的下届,刻画了学习问题本身的难度(yD为x在数据集中的标记,y为x的真实标记)
机器学习笔记-基本概念
泛化误差可分解为偏差、方差与噪声之和:
机器学习笔记-基本概念
给定学习任务,假定能控制算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学习到,方差逐渐主导了泛化错误率。
机器学习笔记-基本概念

西瓜书里都有,写一遍用来整理框架。

相关文章: