所谓框架,或者说方法论,就是指整个数据分析与数据挖掘项目的过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。

在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘人员进行细节的实施工作提供引导,并且能及时明确自己的工作在整个项目流程中的位置。现在流行的各种深度学习的算法,或者前沿的分析工具,都是框架中的某个组成部分。

在数据分析领域中,较为成熟的方法论有CRISP-DM,以及在此之上进行了拓展与丰富的SEMMA。通过总结这两个方法论,再加入一些实际项目工作经验后,我将一个数据分析与挖掘类项目的步骤定义为七个步骤,并用思维导图将上面的7个步骤展示出来。

在实际生活与工作中,不一定每个步骤都一定会被用到。但是一般而言,数据分析与挖掘的项目会经历下面的几个过程:

  1. 需求调研 —— 理解项目目标,明确业务需求点,把握项目的who,when,where,what,how。
  2. 框架定位 —— 涉及的行业领域是什么,数据挖掘的对象处于业务链中的什么位置,用到的数据如何在数据库模型中定位
  3. 数据准备 —— 了解数据库模型,是否需要外部数据源或增加数据接口,现有数据源是否能满足分析的需要
  4. 数据挖掘 —— 包括数据的采样、清洗、探索、建模、评测、封装
  5. 上线部署 —— 数据模型或者前端部署结果
  6. 测试评审 —— 项目的SIT以及UAT测试
  7. 监控测评 —— 模型的日常运作监控,异常报警等。

上面的步骤用思维导图的形式表现出来则如下图所示。

数据分析与数据挖掘框架(一) —— 数据分析与挖掘总框架


上图对框架中几个较为关键的步骤进行了细化与拆解。实际应用中,框架中每个步骤都容纳许多细节与知识点,我会在以后的文章中慢慢更新,也希望大家能够提出建议。




相关文章: