模型的误差包括三个部分:偏差(bias),方差(variance)和噪声(noise)。
模型的设计准则
当模型本身过于复杂时,特征和类别之间的关系中所有的细枝末节都被捕捉,主要的趋势反而在乱花渐欲迷人眼中没有得
到应有的重视,这就会导致过拟合(overfitting)的发生。反过来,如果模型过于简单,它不仅没有能力捕捉细微的相关性,甚
至连主要趋势本身都没办法抓住,这样的现象就是欠拟合(underfitting)。
- 无免费午餐定理说明模型的选取要以问题的特点为根据;
- 奥卡姆剃刀说明在性能相同的情况下,应该选取更加简单的模型;
- 过于简单的模型会导致欠拟合,过于复杂的模型会导致过拟合;
- 从误差分解的角度看,欠拟合模型的偏差较大,过拟合模型的方差较大。
模型的验证方法
由于模型的泛化性能和它的复杂度是直接挂钩的,所以模型验证的任务就是确定模型的复杂度以避免过拟合的发生。
- 模型验证的作用是选择最佳模型并确定其性能;
- 对数据的重采样可以直接实现对样本外误差,也就是泛化误差的估计;
- kkk 折交叉验证是无放回的重采样方法;
- 自助采样是有放回的重采样方法。
模型的评估指标
混淆矩阵
- 在二分类任务中,模型性能度量的基本指标是精度和错误率,两者之和为1;
- 混淆矩阵是个 2x2 的性能度量矩阵,其元素分别是真正例、假正例、假反例和真反例的数目;
- P-R 曲线表示的是查准率和查全率之间的关系,曲线在点 (1, 1) 上达到最优性能;
- ROC 曲线表示的是真正例率和假正例率之间的关系, 曲线在点 (0, 1) 上达到最优性能。
实验设计
- 实验设计的任务是观察一个或多个因子对实验结果的影响;、
- 机器学习中,实验设计中的因子包括算法类型、超参数、数据集等;
- 连续实验可以用来评估多个因子对实验的影响;
- 响应面方法通过二次曲面的拟合寻找可变因子的最佳取值。
特征预处理
- 特征缩放可以让不同特征的取值具有相同的尺度,方法包括标准化和归一化;
- 异常点会导致数据的有偏分布,对数变换和空间标识都可以去除数据的偏度;
- k近邻方法和线性回归可以用来对特征的缺失值进行人为赋值;
- 删除不具备区分度的特征能够降低计算开销,增强可解释性。
基础线性回归:一元与多元
- 线性回归拟合的是高维空间上的输出结果在由所有属性共同定义的低维空间上的正交投影;
- 简单线性回归的统计意义可以用 t统计量和 p 值等指标描述;
- 多元线性回归的统计意义可以用 F 统计量描述,但回归结果可能缺乏对模型的解释能力;
- 机器学习与统计学的区别在于机器学习重于预测,统计学则重于解释。
正则化处理:收缩方法与边际化
- 正则化的作用是抑制过拟合,通过增加偏差来降低方差,提升模型的泛化性能;
- 正则化项的作用是对解空间添加约束,在约束范围内寻找产生最小误差的系数;
- 频率视角下的正则化与贝叶斯视角下的边际化作用相同;
- 边际化对未知的参数和超参数进行积分以消除它们的影响,天然具有模型选择的功能。
13 | 线性降维:主成分的使用
- 在有限的数据集下,数据维度过高会导致维数灾难;
- 降维的方法包括特征选择和特征提取;
- 主成分分析将原始的共线性特征转化为新的正交特征,从而实现特征提取;
- 概率主成分分析是因子分析的一种,是数据的生成模型。
14 | 非线性降维:流形学习
- 流形学习是非线性的降维方法,目的在于找到与高维数据对应的低维嵌入流形;
- 等度量映射是基于全局信息的流形学习方法,通过测地距离和欧氏距离的等效性计算流形;
- 局部线性嵌入是基于局部信息的流形学习方法,通过局部线性系数的不变性计算流形;
- t分布随机近邻嵌入将欧氏距离映射为相似性,利用相似性的保持计算流形。
15 | 从回归到分类:联系函数与降维
- 在解决分类问题时,线性模型的回归值可以通过联系函数转化为分类结果;
- 线性判别分析假定数据来自均值不同但方差相同的正态分布,通过最大化类间方差与类内方差的比值计算线性边界;
- 逻辑回归计算的是不同类别的概率决策边界,输出的是给定数据属于不同类别的后验概率;
- 基于线性模型的分类方法计算出的决策边界是输入属性的线性函数。
16 | 建模非正态分布:广义线性模型
- 广义线性模型从模型解释性和变量分布特性上对普通线性模型做了推广;
- 广义线性模型假定因变量服从指数分布族中的概率分布,这代表了模型中的随机成分;
- 广义线性模型中的自变量和因变量依然由线性系数决定,这代表了模型中的系统成分;
- 联系函数建立系统成分和随机成分的关系,将指数分布的自然参数表示为自变量的线性组合。
17 | 几何角度看分类:支持向量机
- 支持向量机是基于线性判别式几何意义的分类算法;
- 支持向量机通过间隔最大化来定义最优的决策边界;
- 支持向量机通过对偶问题来求解最优的决策边界;
- 支持向量机的目标是让结构风险最小化。
18 | 从全局到局部:核技巧
- 支持向量机在求解最优边界时需要利用对偶性,将原问题转化为对偶问题求解;
- 在思想上,核方法将高维空间上的线性边界转化成低维空间上的非线性边界;
- 在运算上,核技巧能在低维空间中直接计算高维空间中的内积;
- 核函数具有局部化的特点,是从全局模型到局部模型的过渡手段。