欢迎购买正版书籍
豆瓣评价:Python数据分析与挖掘实战
作者: 张良均 / 王路 / 谭立云 / 苏剑林
出版社: 机械工业出版社
第一章数据挖掘基础
1.数据挖掘的基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
2.数据挖掘建模过程
-
目标定义
- 任务理解
- 指标确定
-
数据采集
- 建模抽样
- 质量把控
- 实时采集
-
数据整理
- 数据探索
- 数据清洗
- 数据变换
-
构建模型
- 模式发现
- 构建模型
- 验证模型
-
模型评价
- 设定评价标准
- 多模型对比
- 模型优化
-
模型发布
- 模型部署
- 模型重构
以餐饮业数据挖掘应用为例:
定义挖掘目标
数据抽样
数据抽样的标准:
- 相关性
- 可靠性
- 有效性
衡量取样数据质量的标准:
- 资料完整无缺,各类指标项齐全。
- 数据准确无误,反映的都是正常状态下的水平
对获取的数据,进行抽样操作,常见抽样方式:
- 随机抽样
- 等距抽样
- 分层抽样
- 从起始顺序抽样
- 分类抽样
数据探索
数据探索主要包括:
- 异常值分析
- 缺失值分析
- 相关性分析
- 周期性分析
- 等
数据预处理
数据预处理过程包括:
- 数据筛选
- 数据变量转换
- 缺失值处理
- 坏数据处理
- 数据标准化
- 主成分分析
- 属性选择
- 数据违约
- 等
挖掘建模
数据准备完成后,考虑本次建模属于数据挖掘中的奶类问题:分类、聚类、关联规则、时序模式或者智能推荐? 需要选用那种算法进行模型构建?
模型评价
模型评价的目的之一,就是从上一步的模型中自动找出一个最好模型,另外就是根据业务对模型进行解释和应用
3. 常见的数据挖掘建模工具
- SAS
- SPSS
- SQL
- PYTHON
- WEKA
- KNIME
- RapidMine
- TipDM
- 等