模型评估与选择
- 留出法:留出一部分作为验证集合
- 交叉验证:轮流作为验证集合
-
自助法:随机抽样,袋外误差作为泛化误差,袋外概率1/e 约等于0.368
自助法(boostrap):适用于小数据集,不易区分训练和测试时,抽在抽样误差
- 查全率R:召回率 =(预测正且真实正)/真实正例
- 查准率P:准确率= (预测正且真实正)/预测正例
- F1值: 2pr/(p+r)
- 宏查全率:多个两两分类混淆矩阵查全率的平均
- 微查全率:多个两两分类混淆矩阵对应部分相加求查全率
- P_R曲线:p-r作为坐标轴,曲线与坐标轴包围面积越大效果越好,平衡点(p=r)越高性能越好
- ROC曲线:真正率(查准率)和假正率(假例预测为正例的概率FP/(TN+FP)作为坐标轴
ROC性能:包围面积越大准确率越高
绘制ROC曲线:开始样本全部预测为负类,不断降低阈值,使负类转为正类,当样例为真正类Y坐标上升1/m,当样例为假正类X坐标右移1/m,知道全部样本变为正例(最开始需对样本做评估,按照阈值降序排列,阈值大的例子在阈值减少时率先变为真正例)
线性模型
线性模型通过特征属性的线性加权来预测,权重即表明属性特征重要性,具有较好的解释性
- 线性回归:均方误差最小(最小二乘法)
- 向量形式多元线性回归
线性回归解
对于特征矩阵X当特征数目大于实例(列数大于行数)Xt * X 显然不满秩,则不存在逆矩阵,此时引入L2正则化参数,构成岭回归(B对应W)
逻辑回归(分类)
对数函数将线性回归模型预测值跟类标记关联起来,形成分类效果
逻辑回归仍属于线性模型,logistic函数只是将线性模型预测与分类标志关联
关联函数必须连续光滑(便于求导,梯度下降求解),也是选择sigmoid函数的原因(任意阶可导)
逻辑回归不仅给出分类,同时给出分类的概率近似,名为回归,实则分类
牛顿法梯度下降解
LDA线性判别分析
LDA:样本从高维空间投影至低维空间,使得方差尽可能小(类内方差小,类间分隔大)
PCA:样本从高维空间投影至低维空间,使得方差尽可能小,保留原有数据信息量最大
最大化目标运用了类信息保类内方差小,类间方差大(属于有监督)
SVD分解求逆运算
多分类全局离散度以全局中心计算,每个类一类中心计算,二者之差作为类间离散度
最终实现形式:特征值对应的特征向量,取特征值大前K个,实现有监督降维(N->k)
- 多分类:OVO,OVR
- 类别不平衡:正例过抽样,负例欠抽样,阈值移动
决策树
- ID3算法采用的信息增益对取值较多的属性有偏好,C4.5直接采用增益率对取值数目少的特征有偏好,因而采用先找出高于平均水平的信息增益的属性,再从中选择增益率最高的属性
- 决策树的过拟合问题:分支过多,通过剪枝解决
- 预剪枝:如果分支是的预测正确率下降则不展开分支,(局部贪心,全局次优,可能欠拟合)
- 后剪枝:回缩分支提高精度则回缩(西瓜书:精度回缩),回缩降低模型负度则回缩(统计学习方法:结构风险最小化)
- 决策树基于离散值划分,对连续值离散化处理(离散值属性分割之后,不可作为子树分个属性,连续值离散化后分割之后仍可作子树分隔属性)
- 对于缺失值属性,以其未缺失部分的信息增益乘以为缺失部分占总样本的比率作为属性的信息增益
- 对于缺失值样本,使其按照未缺失样本值分布概率加权进入各个节点
神经网络
- 网络结构
- 目标函数:误差最小化
- BP算法推导:链式求导
- 过拟合问题:
- 早停(训练误差减小,测试误差变大时停止训练)
- 正则化模型复杂度(权值参数)
- 跳出局部最小方式
特征选择
- 前向搜索特征:增加,后向搜索特征:减少
- 评估:信息增益(决策树构建过程即是特征选择的过程)
- 过滤式选择relief
- 过滤过程与后续学习过程分离
- 统计量
- 多分类加权度量
![]()
- 嵌入式选择与正则化
- 岭回归
![]()
- LASSO
![]()
- 稀疏解
![]()
集成学习
- 强依赖关系,串行生成: boosting,集中于提高精度,降低偏差
- 个体独立,并行生成:bagging。集中于降低方差,对于易受样本扰动的分类器(决策树、神经网络等)效果明显,通过bagging降低扰动偏差
- 多模型集成:投票,平均,加权,stacking
stachking:将基学习器输出作为输出训练一个输出集成学习器
个体学习器准确性越高,多样性越大,集成效果越好
聚类
聚类效果度量
原形聚类
核心敏感:K—mean++(距离最远簇心), K-metriods(非均值簇心,避免异常点影响)
层次聚类
密度聚类
常采用平均距离,合并后的全集平均距离便于计算
参考:西瓜书