CH2 数据预处理

数据预处理

文章目录

数据预处理
1 数据预处理的必要性
2 数据清理
3 数据集成
4 数据归约
5 小结

1 数据预处理的必要性

1.1 存在脏数据

CH2 数据预处理

1.2 数据处理的必要性

CH2 数据预处理

1.3 数据质量

CH2 数据预处理

1.4 数据预处理的主要任务

1.5 数据预处理的形式

CH2 数据预处理

2 数据清理

2.1 现实数据中存在的问题：

CH2 数据预处理

2.2 处理缺失值的方式

CH2 数据预处理

在数据量比较小的时候，还可以使用手工填充方式对数据进行处理，但是一旦数据量大起来的时候这种方法就不在适用了。这个时候就需要使用自动填充的方式，对数据进行相应的处理。

2.3 处理噪音数据

CH2 数据预处理

2.3.1 分箱

CH2 数据预处理

分箱过程的示例

CH2 数据预处理

2.4 聚类分析

可达距离，用来衡量点A和点B之间的可达距离，k设置为3的时候， d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3，A与B之间的可达距离为点A和点B之间的欧几里得距离和 d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3之间最大值。

局部可达距离为，当A和B之间的点越密集时， ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) \sum_{B\in N_k(A)} distance_k(A,B) ∑B∈Nk(A)distancek(A,B)的值越小， ∣ N k ( A ) ∣ |N_k(A)| ∣Nk(A)∣的值也越大，对应的 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|} ∣Nk(A)∣∑B∈Nk(A)distancek(A,B)也就小，对应局部可达密度为 1 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{1}{\frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|}} ∣Nk(A)∣∑B∈Nk(A)distancek(A,B)1也就越大，这个指标可以衡量A点与B点之间点的密集程度。

通过计算在A点附近的k个点与A点的局部可达距离比值的平均值对A点的离散程度进行评估。

CH2 数据预处理

如上图所示，其中局部离群因子点数值为7.6259的点为离群点。

在处理回归问题的时候，如果能提前出去离群点的话，能够简化回归的过程。

3 数据集成

对重复数据进行处理的例子

CH2 数据预处理

冗余数据处理

CH2 数据预处理

数据冗余的问题，可能多个数据所表述的是同一个意义。

3.1 相关分析（数值分析）

3.1.1 皮尔逊相关系数

通过一些评价指标对变量之间的相关性进行分析，对应的数学原理之后再细看。

3.1.2 协方差

协方差的例子

3.1.3 通过卡方值进行衡量

卡方分析的例子

3.2 数据变换

3.3 数据规范化

4 数据归约

4.1 数据规约策略

4.2 数据立方体聚集

4.1.1 基本概念

4.1.2 基本操作

钻取
上卷
切片
切块
旋转（在这之中最常用到的就是旋转操作，需要对维度的不同角度进行观察的时候）

CH2 数据预处理

4.3 数据压缩

4.4 维度规约-特征选择

4.5 维度规约-启发式特征选择方法

特征子集搜索(Feature Subset Search)

分支界定，如果（2,3）节点的属性值为0.8，而（1,3|4|5）的值为0.75，则后续的都不需要

4.6 PCA

4.6.1 PCA的数学原理

PCA在二维上的例子，对数据有着要求，要去数据的分布情况要近似的满足高斯分布，要求数据量要足够多。

CH2 数据预处理

在进行pca降维的时候，需要尽可能的将两个维度之间的相关性剔除，在尽可能低的维度上寻找正交基。

涉及到的推导过程如下：

4.6.2 PCA简述

pca算式推导的这边部分，涉及到线性代数的知识，在之后需要对这部分的知识再进行补充。

特征值和特征向量的求法。

4.7 数据规约

CH2 数据预处理

4.8基本模型介绍

线性回归：数据拟合到一条直线上
- 通常使用最小二乘法拟合
多元线性回归
- 允许响应变量Y表示为多个预测变量的函数
对数函数模型
- 近似离散的多位概率分布

4.8.1 回归分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OcWPwYMR-1601387738742)(…/…/…/…/Library/Application%20Support/typora-user-images/image-20200929214520988.png)]

CH2 数据预处理

4.8.2 聚类

CH2 数据预处理

###4.8.3 抽样

CH2 数据预处理

4.8.3.1 抽样类型

简单随机抽样和无放回的随机抽样

5 小结

Data preparation is a big issue for both warehousing and mining
Data preparation includes
- Data cleaning and data integration
- Data reduction and feature selection
- Discretization
A lot a methods have been developed but still an active area of research