一.绪论

1.数据挖掘定义

  • 数据挖掘定义:从大量的、不完全的、有噪声的、随机的数据中,提取潜在有用的信息和知识的过程。
  • 数据挖掘过程:数据整理、数据挖掘、结果的解释评估。
  • 数据挖掘是一个反复迭代的人机交互处理过程。

2.数据挖掘的产生与发展

2.1 数据分析师介绍

  • 互联网具有 数字化和互动性 的特征,给数据搜集、整理、研究带来了革命性的突破。
  • 抽样调查 是最经常采用的数据获取方式,主要原因就是大范围普查的成本太高。
  • 与传统的数据分析师相比,互联网时代的数据分析师面临的不是数据匮乏,而是 数据过剩

2.2 数据处理的类型

  • 操作型处理(OLTP):数据的收集整理、存储、查、增、删、改操作。
  • 分析型处理(OLAP):数据的再加工,复杂的统计分析。

2.3 数据仓库

  • 关系型数据库 RDBMS: Oracle, SQL Server, DB2, MySQL等等。
  • 多维数据仓库 Data Warehouse: Essbase, TM1, BW, SQL Server AS, Intcube OLAP等等。
  • 关系型数据库的语法标准是 SQL, 多维数据仓库的语法标准是 MDX。不支持MDX的,不能称为数据仓库产品。

3.大数据特征

  • 大数据具有自己显著的特征.,如:4V属性(技术) :
  • 数据规模大(Volume) :需要 数据挖掘 技术
  • 数据聚集快(Velocity) :需要 高速数据流挖掘 技术
  • 数据类型多(Variety) :需要 数据库 web挖掘 多媒体挖掘 技术
  • 数据价值大(Value).:数据转换成知识 潜在知识作用大 用全部数据发现有用信息

二.数据预处理

1.数据预处理的目的

  • 数据清理:通过填补空缺数据平滑噪声(有错的)数据,识别、删除孤立点,并纠正不一致的数据、
  • 数据集成:将来自不同数据源的数据合并成一致的数据存储、
  • 数据变换:将数据转换成适于挖掘的形式的预处理过程、
  • 数据归约:从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集与原有数据集基本相同。

2.数据清理

常用方法如下:

  • 使用属性的平均值填补空缺值,忽略了特殊性。
  • 使用与给定元组属同一类的所有样本的平均值:适用于分类数据挖掘。
  • 使用最可能的值填充空缺值,可使用回归、贝叶斯等方法确定空缺值,这是最常用的。

噪声数据去除方法如下:

  1. 分箱:数据挖掘 课堂笔记
  2. 聚类:数据挖掘 课堂笔记
  3. 回归处理:数据挖掘 课堂笔记
  4. 计算机和人工检查结合

3.数据集成和数据转换

  • 数据集成会导致 数据冗余。
  • 常用的数据转换方法如下:
  1. 平滑:包括分箱、聚类和回归 聚集:
  2. 对数据进行汇总和聚集操作 Avg(), count(), sum(), min(), max(),…
  • 在正式进行数据挖掘之前,尤其是使用基于对象距离的挖掘算法时,必须进行数据的 规范化
  • 数据变换规范化常用方法如下:
  1. 最小-最大规范化:数据挖掘 课堂笔记
  2. 零-均值规范化(z-score规范化):数据挖掘 课堂笔记
  3. 小数定标规范化:数据挖掘 课堂笔记

4.数据归约

(1)数据立方体聚集: 数据挖掘 课堂笔记

(2)维归约:删除不相关的属性(或维),减少数据库的规模。【属性子集选择】

(3)数据压缩 :无损压缩、有损压缩。

(4)数值归约:直方图; 聚类; 取样。

5.数据离散化和概念分层

  • 离散化分层:将气温划分为:冷、正常、热。
  • 概念分层:可以用树表示,成年包括青年、中年、老年,青年包括....

5.特征选择与提取

  • 特征选择:从一组特征中厕最有效的,减少特征。
  • 特征提取(降维):将特征重新排列组合,不减少特征。

三.聚类分析

1.基本概念

  • 聚类(Cluster):划分的类是未知的,聚类前并不知道将要划分成几个组和什么样的组。
  • 簇的形成完全是 数据驱动 的,属于一种 无指导的学习方法
  • 分类(Classification):事先定义好类别,类别的数量在过程中 保持不变。
  • 使用 距离 衡量对象间的相异度,距离越近越相似
  • 数据挖掘 课堂笔记
  • q=1,d 称为曼哈坦距离(不常用)
  • q=2,d 称为欧氏距离(常用)
  • 好的聚类算法:高的簇内相似性(簇内距离小)、低的簇间相似性(簇间距离大)。
  • 数据集S的一个聚类C={C1,C2,…,Ck},它的质量包括 每个簇Ci的质量 和 C的总体质量。
  • 前者用 簇内距离 来刻画,后者用 簇间距离 来衡量。

2.聚类分析算法分类

按照聚类算法 所处理的数据类型,可分为以下三种:

  • 数值型数据聚类算法:所分析的数据的属性只限于数值数据
  • 离散型数据聚类算法:只能处理离散型数据
  • 混合型数据聚类算法:能同时处理数值和离散数据

按照聚类的 相似性度量标准,可分为以下三种:

  • 基于距离的聚类算法:用距离来衡量数据对象之间的相似度,如k-means、k-medoids、BIRCH、CURE等算法。
  • 基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方法主要是依据合适的密度函数等。
  • 基于互连性(Linkage-Based)的聚类算法:通常基于图或超图模型。高度连通的数据聚为一类。

按照聚类算法的思路划分,可分为:数据挖掘 课堂笔记

3.k-means 算法

3.1 算法详细步骤

  • 设数据集S={(1,1), (2,1), (1,2), (2,2), (4,3), (5,3), (4,4), (5,4)},令k=2, 试用 k-means算法 将 X 划分为 k个簇。
  • 数据集 S 可表示为一张二维表:数据挖掘 课堂笔记
  • 因为 k=2,故S的聚类 C={C1,C2},由 k-means算法 的循环计算过程如下:
  • (1) 任选 X1=(1,1), X3=(1,2) 分别作为 簇的中心,即 C1={x1} 和 C2={x3};
  • (2) 第一轮循环:计算各数据点的归属:         
  • ①计算X2的归属:因为 d(X2,X1)2= 1, d(X2,X3) 2=2,且1< 2,所以 X2 归 X1代表的簇,即C1={X1,X2};  
  • ②计算X4的归属:因为 d(X4,X1)2= 2, d(X4,X3) 2=1,且 2>1,所以 X4 归 X3代表的簇,即C2={X3,X4};     
  • ③同理 X5 , X6, X7, X8 也归入 X3 代表的簇;
  • ④故得初始簇为:C1={X1,X2}, C2={X3,X4,X5,X6,X7,X8};
  • ⑤重新计算得 C1 和 C2 的 中心点 分别是:数据挖掘 课堂笔记
  • (3)第二轮循环:将X1, X2,…,X8分配到最近的簇中心,重复第一轮循环,最后又能得到两个簇 和 新的 中心点;
  • 不断循环到 簇中心已没有变化,算法停止;
  • 输出 S 的聚类: C={C1,C2}={{X1,X2,X3,X4}, X5,X6,X7,X8}}。

3.2 优缺点

优点:

  • k-means算法简单、经典,常作为其它聚类算法的参照或被改进。       
  • k-means算法以k个簇的误差平方和最小为目标,当簇是密集的,且簇与簇之间区别明显时,其聚类效果较好。  
  • k-means算法处理大数据集高效,具较好的可伸缩性

缺点:

  • k-means算法对初始中心点的选择比较敏感。
  • k-means算法对参数k比较敏感。
  • 在连续属性的数据集上很容易实现,但在具有离散属性的数据集上却不能适用。
  • 主要发现圆形或者球形簇,对不同形状和密度的簇效果不好。
  • k-means算法对噪声和离群点非常敏感。

相关文章: