机器学习笔记-基本概念

泛化：学得模型适用于新样本的能力。
假设空间：属性可能取值的集合。
如西瓜问题中，（色泽=青绿；根蒂=蜷缩；敲声=浊响）是一个假设空间，（色泽=*；根蒂=蜷缩；敲声=浊响）也是一个假设空间，*表示无论取什么值都合适。
现实问题中，可能存在多个假设空间与训练集一致，与训练集一致的假设空间集合称为版本空间。
偏好（归纳偏好）：机器学习算法在学习过程中对某种类型假设的偏好。
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。

误差：学习器的实际预测输出与样本的真实输出之间的差异。学习器在训练集上的误差称为训练误差或经验误差，在新样本上的误差称为泛化误差。

过拟合：学习器将训练样本自身的特点当作了一般性质，导致泛化能力下降。
欠拟合：指学习器对训练样本的一般性质未学好。

模型评估方法

留出法：直接将数据集划分为两个互斥的训练集S和测试集T，在S上训练模型，用T来评估测试误差作为对泛化误差的估计。注意一般采用分层抽样的方式划分数据集，以保留数据在划分后的集合上分布的一致性，避免因数据划分而额外引入的偏差。
交叉验证法（cross validation）：即k者交叉验证，指将数据集以分层采样的方式划分为k个大小相近的互斥子集，每次用k-1个子集的并集作为训练集，余下的作为测试集，进行k次训练与测试，最终返回k个测试结果的均值。
自助（采样）法：即有放回地从包含m个样本的数据集中随机抽取m次，得到与原数据集一样大小的数据集作为训练集，未被采到的数据作为测试集（求极限可得约有36.8%的样本未被采到），这样的测试结果称为包外估计（out-of-bag estimate）。自助法适用于数据集较小的情况；自助法产生的数据集改变了数据分布，会引入估计偏差。

模型性能度量

衡量模型泛化能力的评价标准。

回归任务：均方误差

对于数据分布D和概率密度p(.)：
分类任务
- 错误率与精度
  错误率：分类错误的样本数占样本总数的比例
  
  精度：分类正确的样本数占样本总数的比例
  
  对于数据分布D和概率密度p(.)：
- 查准率(准确率)、查全率(召回率)与F
  
  根据上表可以得到查准率P和查全率R的定义：
  
  P-R图：若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者
  
  F1度量：
  
  Fb度量：F1的一般形式，表示对查准率/查全率的不同偏好
- ROC与AUC
  ROC曲线的纵轴是“真正例率”TPR，横轴是“假正例率”FPR：
  
  AUC(Area Under ROC Curve)：ROC曲线的下面积
- 代价敏感错误率与代价曲线
  目的：权衡不同类型的错误所造成的不同损失
  costij表示将第i类样本预测为第j类样本的代价，下图是二分类代价矩阵：
  
  我们希望最小化总体代价：
  
  代价曲线：
  横轴是取值为[0,1]的正例概率代价(p是样例为正例的概率)：
  
  纵轴是取值为[0,1]的归一化代价(其中FPR是假正例率，FNR=1-TPR是假反例率)：
  
  则代价曲线(图中红色曲线)：

泛化性能：偏差-方差分解

偏差：学习算法的期望预测与真实结果的偏离程度，刻画了算法本身的拟合能力
机器学习笔记-基本概念
方差：同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响

噪声：当前任务上任何学习算法所能达到的期望泛化误差的下届，刻画了学习问题本身的难度(yD为x在数据集中的标记，y为x的真实标记)
机器学习笔记-基本概念
则泛化误差可分解为偏差、方差与噪声之和：

给定学习任务，假定能控制算法的训练程度，则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化错误率；随着训练程度加深，学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学习到，方差逐渐主导了泛化错误率。
机器学习笔记-基本概念

西瓜书里都有，写一遍用来整理框架。