数据挖掘笔记（一）

**所有信息参考自《数据挖掘：概念与技术》一书**

一、为什么进行数据挖掘

（1）数据的爆炸式增长：是社会计算机化和功能强大的数据集和存储工具快速发展的结果。

急需功能强大和通用的工具，以便从海量数据中发现有价值的信息，把这些数据转化成有组织的知识。这种需求导致了数据挖掘的的诞生。

（2）数据挖掘是信息技术的进化

丰富的数据以及对强有力的数据分析功能的需求——“数据丰富、但信息贫乏。（见图1.2）快速增长的海量数据集、存放在大量的大型数据库中，没有强有力的工具，其理解超出人的能力。于是收集在大型数据库中的数据变成了“数据坟墓”——即难得再访问的数据档案。

数据挖掘笔记（一）

二、什么是数据挖掘

——数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

1、数据挖掘也被称作“数据中的知识发现”（KDD），此外类似的还有：从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

知识发现过程如下图：

数据挖掘笔记（一）

知识发现的步骤：（下划线步骤为数据预处理包含的步骤）

数据清洗（清除噪音和删除不一致数据）
数据集成（多种数据源组合在一起）
数据选择（从DB中提取与分析任务相关的数据）
数据变换（把数据变换和统一成适合挖掘的形式）
数据挖掘（the core process，使用智能方法提取数据模式)
模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）
知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

2、数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。下图为数据仓库的典型框架。

数据挖掘笔记（一）

三、挖掘什么类型的数据

1、关系数据库

2、数据仓库

数据仓库用数据立方体（data cube)的多维数据结构建模

数据挖掘笔记（一）

图3-1 一个通常用于数据仓库的多维数据立方体

上图就是一个数据立方体，有三个维：address、time、city。存放在立方体每个单元中的聚集值是sales_amount（单位：千美元）。

通过提供多维数据视图和汇总数据的预计算，数据仓库非常适合OLAP（联机分析处理）。

OLAP的操作的例子包括下钻（drill-down)和上卷(roll-up)。允许用户在不同的汇总级别观察数据。

数据挖掘笔记（一）

例如：上图中左图对按季度汇总的销售数据下钻，观察按月汇总的情况；右图对按城市汇总的销售数据上卷，观察按国家汇总的数据。

3、事务型数据库

事务DB中的每个记录代表一个事务，如一个航班订票。通常一个事务包含一个唯一的事务标识号（trans_ID)，以及一个组成事务的项。

数据挖掘笔记（一）

图事务数据库片段

4、高级数据库和信息存储库

四、数据挖掘的功能

1、概念描述：特征化与区分

特征化的输出提供多种形式：饼图、条图、曲线、多维数据立方体和多维表等。
数据区分是将目标数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

2、挖掘频繁模式、关联和相关性

数据挖掘笔记（一）

Support——支持度，符合条件人数的占比

Confidence——置信度，符合条件的人中购买相关产品的人数占比

3、用于预测分析的分类和回归

分类：

分类模型可以用集中不同的形式表示：

决策树：每个结点代表在一个属性值上的测试，每个分支代表测试的一个结果，树叶代表类或类的分布。

数据挖掘笔记（一）

图4-1 决策树

神经网络

数据挖掘笔记（一）

图4-2 神经网络

IF-THEN规则（分类规则）

数据挖掘笔记（一）

图4-3 IF-THEN规则

4、聚类分析

5、离群点分析——对欺诈检测很有用

五、所有模式都有趣吗？

1、对于给定的用户，在可能产生的模式种，只有一小部分是她感兴趣的。

2、一个模式是“有趣的”：（1）易于被人理解；（2）在魔种确信度上，对于新的或检验数据是有效的；（3）潜在有用的；（4）新颖的。如果一个模式证实了用户寻求证实的某种假设，则它也是有趣的，有趣的模式代表知识。

3、有趣度的客观度量：

support支持度（表示事务DB种满足挥着的事务所占百分比）。概率P（X U Y）
confidence置信度（评估所发现的规则的确信程度）概率P（Y | X）。

六、数据挖掘存在的问题

1、挖掘方法

2、用户交互

3、有效性和伸缩性

4、处理多种多样的数据