数据预处理

1 数据预处理的必要性

CH2 数据预处理

1.1 存在脏数据

CH2 数据预处理

1.2 数据处理的必要性

CH2 数据预处理

1.3 数据质量

CH2 数据预处理

1.4 数据预处理的主要任务

CH2 数据预处理

1.5 数据预处理的形式

CH2 数据预处理

2 数据清理

2.1 现实数据中存在的问题:

CH2 数据预处理

2.2 处理缺失值的方式

CH2 数据预处理

在数据量比较小的时候,还可以使用手工填充方式对数据进行处理,但是一旦数据量大起来的时候这种方法就不在适用了。这个时候就需要使用自动填充的方式,对数据进行相应的处理。

2.3 处理噪音数据

CH2 数据预处理

2.3.1 分箱

CH2 数据预处理

分箱过程的示例

CH2 数据预处理

2.4 聚类分析

CH2 数据预处理

可达距离,用来衡量点A和点B之间的可达距离,k设置为3的时候, d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3,A与B之间的可达距离为点A和点B之间的欧几里得距离和 d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3之间最大值。

局部可达距离为,当A和B之间的点越密集时, ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) \sum_{B\in N_k(A)} distance_k(A,B) BNk(A)distancek(A,B)的值越小, ∣ N k ( A ) ∣ |N_k(A)| Nk(A)的值也越大,对应的 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|} Nk(A)BNk(A)distancek(A,B)也就小,对应局部可达密度为 1 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{1}{\frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|}} Nk(A)BNk(A)distancek(A,B)1也就越大,这个指标可以衡量A点与B点之间点的密集程度。

通过计算在A点附近的k个点与A点的局部可达距离比值的平均值对A点的离散程度进行评估。

CH2 数据预处理

如上图所示,其中局部离群因子点数值为7.6259的点为离群点。

CH2 数据预处理

在处理回归问题的时候,如果能提前出去离群点的话,能够简化回归的过程。

3 数据集成

CH2 数据预处理

对重复数据进行处理的例子

CH2 数据预处理

CH2 数据预处理

冗余数据处理

CH2 数据预处理

CH2 数据预处理

数据冗余的问题,可能多个数据所表述的是同一个意义。

3.1 相关分析(数值分析)

3.1.1 皮尔逊相关系数

通过一些评价指标对变量之间的相关性进行分析,对应的数学原理之后再细看。

CH2 数据预处理

3.1.2 协方差

CH2 数据预处理

协方差的例子

CH2 数据预处理

相关性的视觉表现

CH2 数据预处理

3.1.3 通过卡方值进行衡量

CH2 数据预处理

卡方分析的例子

CH2 数据预处理

3.2 数据变换

CH2 数据预处理

3.3 数据规范化

CH2 数据预处理CH2 数据预处理

4 数据归约

4.1 数据规约策略

CH2 数据预处理

4.2 数据立方体聚集

CH2 数据预处理

4.1.1 基本概念

CH2 数据预处理CH2 数据预处理

4.1.2 基本操作

  • 钻取
  • 上卷
  • 切片
  • 切块
  • 旋转(在这之中最常用到的就是旋转操作,需要对维度的不同角度进行观察的时候)

CH2 数据预处理

4.3 数据压缩

CH2 数据预处理

4.4 维度规约-特征选择

CH2 数据预处理

4.5 维度规约-启发式特征选择方法

CH2 数据预处理

特征子集搜索(Feature Subset Search)

CH2 数据预处理

分支界定,如果(2,3)节点的属性值为0.8,而(1,3|4|5)的值为0.75,则后续的都不需要

CH2 数据预处理

4.6 PCA

4.6.1 PCA的数学原理

CH2 数据预处理

PCA在二维上的例子,对数据有着要求,要去数据的分布情况要近似的满足高斯分布,要求数据量要足够多。

CH2 数据预处理

CH2 数据预处理CH2 数据预处理

在进行pca降维的时候,需要尽可能的将两个维度之间的相关性剔除,在尽可能低的维度上寻找正交基。

涉及到的推导过程如下:

CH2 数据预处理

4.6.2 PCA简述

CH2 数据预处理CH2 数据预处理

pca算式推导的这边部分,涉及到线性代数的知识,在之后需要对这部分的知识再进行补充。

​ 特征值和特征向量的求法。

4.7 数据规约

CH2 数据预处理

4.8基本模型介绍

  • 线性回归:数据拟合到一条直线上
    • 通常使用最小二乘法拟合
  • 多元线性回归
    • 允许响应变量Y表示为多个预测变量的函数
  • 对数函数模型
    • 近似离散的多位概率分布

4.8.1 回归分析

CH2 数据预处理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OcWPwYMR-1601387738742)(…/…/…/…/Library/Application%20Support/typora-user-images/image-20200929214520988.png)]

CH2 数据预处理

4.8.2 聚类

CH2 数据预处理

###4.8.3 抽样

CH2 数据预处理

4.8.3.1 抽样类型

CH2 数据预处理

简单随机抽样和无放回的随机抽样

CH2 数据预处理

5 小结

  • Data preparation is a big issue for both warehousing and mining

  • Data preparation includes

    • Data cleaning and data integration
    • Data reduction and feature selection
    • Discretization
  • A lot a methods have been developed but still an active area of research

相关文章:

猜你喜欢
  • 2021-11-23
相关资源
相似解决方案