数据挖掘课堂笔记

一.绪论

1.数据挖掘定义

数据挖掘定义：从大量的、不完全的、有噪声的、随机的数据中，提取潜在有用的信息和知识的过程。

数据挖掘过程：数据整理、数据挖掘、结果的解释评估。

数据挖掘是一个反复迭代的人机交互处理过程。

2.数据挖掘的产生与发展

2.1 数据分析师介绍

互联网具有 数字化和互动性 的特征，给数据搜集、整理、研究带来了革命性的突破。

抽样调查 是最经常采用的数据获取方式，主要原因就是大范围普查的成本太高。

与传统的数据分析师相比，互联网时代的数据分析师面临的不是数据匮乏，而是 数据过剩。

2.2 数据处理的类型

操作型处理（OLTP)：数据的收集整理、存储、查、增、删、改操作。

分析型处理(OLAP)：数据的再加工，复杂的统计分析。

2.3 数据仓库

关系型数据库 RDBMS： Oracle, SQL Server， DB2， MySQL等等。

多维数据仓库 Data Warehouse： Essbase, TM1, BW, SQL Server AS, Intcube OLAP等等。

关系型数据库的语法标准是 SQL，多维数据仓库的语法标准是 MDX。不支持MDX的，不能称为数据仓库产品。

3.大数据特征

大数据具有自己显著的特征.，如：4V属性（技术）：

数据规模大(Volume) ：需要数据挖掘技术

数据聚集快(Velocity) ：需要高速数据流挖掘技术

数据类型多(Variety) ：需要数据库 web挖掘多媒体挖掘技术

数据价值大(Value).：数据转换成知识潜在知识作用大用全部数据发现有用信息

二.数据预处理

1.数据预处理的目的

数据清理：通过填补空缺数据平滑噪声（有错的）数据，识别、删除孤立点，并纠正不一致的数据、

数据集成：将来自不同数据源的数据合并成一致的数据存储、

数据变换：将数据转换成适于挖掘的形式的预处理过程、

数据归约：从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集与原有数据集基本相同。

2.数据清理

常用方法如下：

使用属性的平均值填补空缺值，忽略了特殊性。

使用与给定元组属同一类的所有样本的平均值：适用于分类数据挖掘。

使用最可能的值填充空缺值，可使用回归、贝叶斯等方法确定空缺值，这是最常用的。

噪声数据去除方法如下：

分箱：

聚类：

回归处理：

计算机和人工检查结合

3.数据集成和数据转换

数据集成会导致数据冗余。

常用的数据转换方法如下：

平滑：包括分箱、聚类和回归聚集：

对数据进行汇总和聚集操作 Avg(), count(), sum(), min(), max(),…

在正式进行数据挖掘之前，尤其是使用基于对象距离的挖掘算法时，必须进行数据的 规范化。

数据变换规范化常用方法如下：

最小-最大规范化：

零-均值规范化（z-score规范化）：

小数定标规范化：

4.数据归约

（1）数据立方体聚集：

（2）维归约：删除不相关的属性（或维），减少数据库的规模。【属性子集选择】

（3）数据压缩：无损压缩、有损压缩。

（4）数值归约：直方图；聚类；取样。

5.数据离散化和概念分层

离散化分层：将气温划分为：冷、正常、热。

概念分层：可以用树表示，成年包括青年、中年、老年，青年包括....

5.特征选择与提取

特征选择：从一组特征中厕最有效的，减少特征。

特征提取（降维）：将特征重新排列组合，不减少特征。

三.聚类分析

1.基本概念

聚类(Cluster)：划分的类是未知的，聚类前并不知道将要划分成几个组和什么样的组。

簇的形成完全是 数据驱动 的，属于一种 无指导的学习方法。

分类(Classification)：事先定义好类别，类别的数量在过程中保持不变。

使用距离衡量对象间的相异度，距离越近越相似。

q=1，d 称为曼哈坦距离（不常用）

q=2，d 称为欧氏距离（常用）

好的聚类算法：高的簇内相似性（簇内距离小）、低的簇间相似性（簇间距离大）。

数据集S的一个聚类C={C1,C2,…,Ck}，它的质量包括每个簇Ci的质量和 C的总体质量。

前者用簇内距离来刻画，后者用簇间距离来衡量。

2.聚类分析算法分类

按照聚类算法 所处理的数据类型，可分为以下三种：

数值型数据聚类算法：所分析的数据的属性只限于数值数据

离散型数据聚类算法：只能处理离散型数据

混合型数据聚类算法：能同时处理数值和离散数据

按照聚类的 相似性度量标准，可分为以下三种：

基于距离的聚类算法：用距离来衡量数据对象之间的相似度，如k-means、k-medoids、BIRCH、CURE等算法。

基于密度的聚类算法：相对于基于距离的聚类算法，基于密度的聚类方法主要是依据合适的密度函数等。

基于互连性(Linkage-Based)的聚类算法：通常基于图或超图模型。高度连通的数据聚为一类。

按照聚类算法的思路划分，可分为：

3.k-means 算法

3.1 算法详细步骤

设数据集S={(1,1), (2,1), (1,2), (2,2), (4,3), (5,3), (4,4), (5,4)}，令k=2, 试用 k-means算法将 X 划分为 k个簇。

数据集 S 可表示为一张二维表：

因为 k=2，故S的聚类 C={C1,C2}，由 k-means算法的循环计算过程如下：

(1) 任选 X1=(1,1), X3=(1,2) 分别作为簇的中心，即 C1={x1} 和 C2={x3}；

(2) 第一轮循环：计算各数据点的归属：

①计算X2的归属：因为 d(X2,X1)2= 1, d(X2,X3) 2=2，且1< 2，所以 X2 归 X1代表的簇，即C1={X1,X2}；

②计算X4的归属：因为 d(X4,X1)2= 2, d(X4,X3) 2=1，且 2>1，所以 X4 归 X3代表的簇，即C2={X3,X4}；

③同理 X5 , X6, X7, X8 也归入 X3 代表的簇；

④故得初始簇为：C1={X1,X2}， C2={X3,X4,X5,X6,X7,X8}；

⑤重新计算得 C1 和 C2 的中心点分别是：

(3)第二轮循环：将X1, X2,…,X8分配到最近的簇中心，重复第一轮循环，最后又能得到两个簇和新的中心点；

不断循环到 簇中心已没有变化，算法停止；

输出 S 的聚类： C={C1,C2}={{X1,X2,X3,X4}, X5,X6,X7,X8}}。

3.2 优缺点

优点：

k-means算法简单、经典，常作为其它聚类算法的参照或被改进。

k-means算法以k个簇的误差平方和最小为目标，当簇是密集的，且簇与簇之间区别明显时，其聚类效果较好。

k-means算法处理大数据集高效，具较好的可伸缩性

缺点：

k-means算法对初始中心点的选择比较敏感。

k-means算法对参数k比较敏感。

在连续属性的数据集上很容易实现，但在具有离散属性的数据集上却不能适用。

主要发现圆形或者球形簇，对不同形状和密度的簇效果不好。

k-means算法对噪声和离群点非常敏感。