数据分析(四)简单模型 VS 集成模型(概述)
- 在数据分析所使用的模型中,不管是分类、回归还是聚类,都可划分为【简单模型】和【集成模型】。后者是以前者为基础的特定组合方式,我们在天池、Kaggle、Github 上看到的那些非常牛逼的模型基本上都是集成的。如果想深入地理解集成模型的原理、将其效果最大地发挥出来,首先得把简单模型学懂了。本文所列举的是最常见的模型。
- 出于篇幅的考虑,这一篇文章先做个概述,之后再分模块成文。
简单模型
分类模型
概述
- 对样本所属类别进行判断,实质上是用【多个其他特征】来表示【类别特征】
- 对数据集的要求:每个样本需要同时包含【特征】和【标签】(又称类别信息)
- 步骤:1、分类器的构造(俗称:训练模型);2、用测试集来检验分类器的性能;3、若性能达标,则可以用训练好的分类器来判断未分类样本的类别
- 应用举例:市场精准营销(为了削减传媒成本,可以使用顾客购买记录、住址、收入、生活风格等等信息来判断是否为某产品的目标用户);欺诈检测(为了挖掘信用卡交易中的欺诈行为,可以用持卡人的交易时间、内容、履行信用次数等等信息来判断某次交易是否构成欺诈)
常见模型
- 决策树:形为二叉树,模拟人的决策过程;关键词:节点不纯度;基尼指数,信息增益(率),分类错误不纯度;剪枝
- KNN:即 K 近邻,用距离(又称相似度)远近作为类别信息相似程度的试题;关键词:距离(相似度)的定义
- 多层感知机:隐藏层大于 1 的前馈神经网络;关键词:神经元,**函数,网络结构,损失函数,最优化
- 朴素贝叶斯:基于贝叶斯定理的样本特征之间的条件独立性假设;关键词:条件概率,联合概率,后验概率,参数估计
- 支持向量机:在不同类别样本之间找到一个边界,使得边界总体上离样本最”远“;关键词:超平面,约束最优化,核函数
回归模型
概述
- 将特征作为自变量(又称解释/预测变量),将需要关注或预测的变量作为因变量(又称响应变量或结果变量)
- 与分类模型如出一辙,都是属于【预测/判断】,区别在于分类模型中的因变量是离散变量,而回归模型中的因变量通常是连续变量;回归模型适用于存在回归现象的数据,而分类模型无回归的概念。因此数据集中不需要有【标签】这一属性(如果你一定要这么叫其实也不是不行……)
- 步骤与分类模型相似
常见模型
- 一元线性回归:以一个特征为自变量,用一条直线刻画特征与因变量的关系;关键词:最小二乘法,极大似然法,残差
- 多元线性回归:以多个特征为自变量,用线性关系刻画特征与因变量的关系;关键词:满秩,非奇异,多重共线性,罚函数/正则项
- 逻辑回归:用非线性关系刻画特征与因变量的关系,注意逻辑回归用于解决分类问题,尤其是二分类!!!关键词:Logit 变换,Sigmoid 函数
聚类模型
概述
- 对于未知分类的样本进行划分,使相同簇的样本间距离尽量小、不同簇的样本间距离尽量大
- 步骤:1、数据预处理;2、构造样本相似度矩阵;3、选择合适的聚类方法;4、确定最佳聚类个数
常见模型
- K-Means:通过不断更新聚类中心的方式,形成 K 个与各自的中心平均距离最近的簇;关键词:质心选取
- 层次聚类:用自上而下的分裂或自下而上的合并方式,形成一棵聚类树;关键词:凝聚,分裂,Single/Complete/Average Linkage,GAS,GDS
- DBSCAN:用基于密度的方式,形成多个相对密度高的区域;关键词:非凸区域,邻域,密度
集成模型
- 通过集成多个模型,增强表达能力、降低分错概率。
- 经典的集成模型主要面向分类,聚类集成模型比较复杂,本文不涉及。
Bagging
概述
- 对样本或特征随机取样,分别训练多个不同的模型,预测结果取均值
- 通常要求特征与样本的数量较多
- 模型过程图如下:
常见模型
- 随机森林——分类集成模型:随机生成多棵决策树,用投票方式作为预测结果;关键词:有放回抽样,随机抽样,分类间隔,袋外错误率
Boosting
概述
- 串行训练多个模型,后一个模型的参数设置基于前一个模型的训练结果,只看最后一个模型的结果
- 过程比较复杂,可解释性通常很差
常见模型
- AdaBoost——分类集成模型:每次运用一个弱分类器,不同在于样本的加权方式,通过不断调高被错分样本的权重来提升下一弱分类器的性能;关键词:样本加权,分类器加权
- GBDT——二分类/回归集成模型:针对【损失函数为一般函数】的 Boosting Tree 算法,利用最速下降法完成模型拟合;Boostring Tree 指以决策树为基函数的 Boosting 方法;关键词:二分类,最速下降
Stacking
- 可理解为 Bagging 与 Boosting 的融合
- 如下图所示为分类型的 Stacking 的过程示意图,左边黄色边框内相当于 Bagging 的过程,整个框看作一个弱分类器,与右边另一个分类器共同组成了 Boosting
To be continued…