学习笔记之《python数据分析与挖掘实战》第一章数据挖掘基础

欢迎购买正版书籍

豆瓣评价:Python数据分析与挖掘实战
作者: 张良均 / 王路 / 谭立云 / 苏剑林
出版社: 机械工业出版社

第一章数据挖掘基础

1.数据挖掘的基本任务

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

2.数据挖掘建模过程

  • 目标定义

    • 任务理解
    • 指标确定
  • 数据采集

    • 建模抽样
    • 质量把控
    • 实时采集
  • 数据整理

    • 数据探索
    • 数据清洗
    • 数据变换
  • 构建模型

    • 模式发现
    • 构建模型
    • 验证模型
  • 模型评价

    • 设定评价标准
    • 多模型对比
    • 模型优化
  • 模型发布

    • 模型部署
    • 模型重构

以餐饮业数据挖掘应用为例:
学习笔记之《python数据分析与挖掘实战》第一章数据挖掘基础

定义挖掘目标

数据抽样

数据抽样的标准:

  • 相关性
  • 可靠性
  • 有效性

衡量取样数据质量的标准:

  • 资料完整无缺,各类指标项齐全。
  • 数据准确无误,反映的都是正常状态下的水平

对获取的数据,进行抽样操作,常见抽样方式:

  • 随机抽样
  • 等距抽样
  • 分层抽样
  • 从起始顺序抽样
  • 分类抽样

数据探索

数据探索主要包括:

  • 异常值分析
  • 缺失值分析
  • 相关性分析
  • 周期性分析

数据预处理

数据预处理过程包括:

  • 数据筛选
  • 数据变量转换
  • 缺失值处理
  • 坏数据处理
  • 数据标准化
  • 主成分分析
  • 属性选择
  • 数据违约

挖掘建模

数据准备完成后,考虑本次建模属于数据挖掘中的奶类问题:分类、聚类、关联规则、时序模式或者智能推荐? 需要选用那种算法进行模型构建?

模型评价

模型评价的目的之一,就是从上一步的模型中自动找出一个最好模型,另外就是根据业务对模型进行解释和应用

3. 常见的数据挖掘建模工具

  • SAS
  • SPSS
  • SQL
  • PYTHON
  • WEKA
  • KNIME
  • RapidMine
  • TipDM

相关文章: