数据分析（四）简单模型 VS 集成模型（概述）

数据分析（四）简单模型 VS 集成模型（概述）

简单模型

分类模型

概述
常见模型

回归模型

概述
常见模型

聚类模型

概述
常见模型

集成模型

Bagging

概述
常见模型

Boosting

概述
常见模型

Stacking

在数据分析所使用的模型中，不管是分类、回归还是聚类，都可划分为【简单模型】和【集成模型】。后者是以前者为基础的特定组合方式，我们在天池、Kaggle、Github 上看到的那些非常牛逼的模型基本上都是集成的。如果想深入地理解集成模型的原理、将其效果最大地发挥出来，首先得把简单模型学懂了。本文所列举的是最常见的模型。

出于篇幅的考虑，这一篇文章先做个概述，之后再分模块成文。

简单模型

分类模型

概述

对样本所属类别进行判断，实质上是用【多个其他特征】来表示【类别特征】
对数据集的要求：每个样本需要同时包含【特征】和【标签】（又称类别信息）
步骤：1、分类器的构造（俗称：训练模型）；2、用测试集来检验分类器的性能；3、若性能达标，则可以用训练好的分类器来判断未分类样本的类别
应用举例：市场精准营销（为了削减传媒成本，可以使用顾客购买记录、住址、收入、生活风格等等信息来判断是否为某产品的目标用户）；欺诈检测（为了挖掘信用卡交易中的欺诈行为，可以用持卡人的交易时间、内容、履行信用次数等等信息来判断某次交易是否构成欺诈）

常见模型

决策树：形为二叉树，模拟人的决策过程；关键词：节点不纯度；基尼指数，信息增益（率），分类错误不纯度；剪枝
KNN：即 K 近邻，用距离（又称相似度）远近作为类别信息相似程度的试题；关键词：距离（相似度）的定义
多层感知机：隐藏层大于 1 的前馈神经网络；关键词：神经元，**函数，网络结构，损失函数，最优化
朴素贝叶斯：基于贝叶斯定理的样本特征之间的条件独立性假设；关键词：条件概率，联合概率，后验概率，参数估计
支持向量机：在不同类别样本之间找到一个边界，使得边界总体上离样本最”远“；关键词：超平面，约束最优化，核函数

回归模型

概述

将特征作为自变量（又称解释/预测变量），将需要关注或预测的变量作为因变量（又称响应变量或结果变量）
与分类模型如出一辙，都是属于【预测/判断】，区别在于分类模型中的因变量是离散变量，而回归模型中的因变量通常是连续变量；回归模型适用于存在回归现象的数据，而分类模型无回归的概念。因此数据集中不需要有【标签】这一属性（如果你一定要这么叫其实也不是不行……）
步骤与分类模型相似

常见模型

一元线性回归：以一个特征为自变量，用一条直线刻画特征与因变量的关系；关键词：最小二乘法，极大似然法，残差
多元线性回归：以多个特征为自变量，用线性关系刻画特征与因变量的关系；关键词：满秩，非奇异，多重共线性，罚函数/正则项
逻辑回归：用非线性关系刻画特征与因变量的关系，注意逻辑回归用于解决分类问题，尤其是二分类！！！关键词：Logit 变换，Sigmoid 函数

聚类模型

概述

对于未知分类的样本进行划分，使相同簇的样本间距离尽量小、不同簇的样本间距离尽量大
步骤：1、数据预处理；2、构造样本相似度矩阵；3、选择合适的聚类方法；4、确定最佳聚类个数

常见模型

K-Means：通过不断更新聚类中心的方式，形成 K 个与各自的中心平均距离最近的簇；关键词：质心选取
层次聚类：用自上而下的分裂或自下而上的合并方式，形成一棵聚类树；关键词：凝聚，分裂，Single/Complete/Average Linkage，GAS，GDS
DBSCAN：用基于密度的方式，形成多个相对密度高的区域；关键词：非凸区域，邻域，密度

集成模型

通过集成多个模型，增强表达能力、降低分错概率。
经典的集成模型主要面向分类，聚类集成模型比较复杂，本文不涉及。

Bagging

概述

对样本或特征随机取样，分别训练多个不同的模型，预测结果取均值
通常要求特征与样本的数量较多
模型过程图如下：

常见模型

随机森林——分类集成模型：随机生成多棵决策树，用投票方式作为预测结果；关键词：有放回抽样，随机抽样，分类间隔，袋外错误率

Boosting

概述

串行训练多个模型，后一个模型的参数设置基于前一个模型的训练结果，只看最后一个模型的结果
过程比较复杂，可解释性通常很差

常见模型

AdaBoost——分类集成模型：每次运用一个弱分类器，不同在于样本的加权方式，通过不断调高被错分样本的权重来提升下一弱分类器的性能；关键词：样本加权，分类器加权
GBDT——二分类/回归集成模型：针对【损失函数为一般函数】的 Boosting Tree 算法，利用最速下降法完成模型拟合；Boostring Tree 指以决策树为基函数的 Boosting 方法；关键词：二分类，最速下降

Stacking

可理解为 Bagging 与 Boosting 的融合
如下图所示为分类型的 Stacking 的过程示意图，左边黄色边框内相当于 Bagging 的过程，整个框看作一个弱分类器，与右边另一个分类器共同组成了 Boosting

数据分析（四）简单模型 VS 集成模型（概述）
To be continued…

相关文章：

2021-08-29
2021-11-02
2022-12-23
2021-12-04
2021-12-24
2022-12-23
2021-11-27
2021-05-22

猜你喜欢

2022-12-23
2021-08-25
2021-12-08
2021-12-11
2022-02-08
2021-12-30
2021-12-23

相关资源

下载 2022-12-08
下载 2022-12-02
下载 2021-07-09

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode