数据预处理
1 数据预处理的必要性
1.1 存在脏数据
1.2 数据处理的必要性
1.3 数据质量
1.4 数据预处理的主要任务
1.5 数据预处理的形式
2 数据清理
2.1 现实数据中存在的问题:
2.2 处理缺失值的方式
在数据量比较小的时候,还可以使用手工填充方式对数据进行处理,但是一旦数据量大起来的时候这种方法就不在适用了。这个时候就需要使用自动填充的方式,对数据进行相应的处理。
2.3 处理噪音数据
2.3.1 分箱
分箱过程的示例
2.4 聚类分析
可达距离,用来衡量点A和点B之间的可达距离,k设置为3的时候, d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3,A与B之间的可达距离为点A和点B之间的欧几里得距离和 d i s t a n c e k ( B ) , k = 3 distance_k(B),k=3 distancek(B),k=3之间最大值。
局部可达距离为,当A和B之间的点越密集时, ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) \sum_{B\in N_k(A)} distance_k(A,B) ∑B∈Nk(A)distancek(A,B)的值越小, ∣ N k ( A ) ∣ |N_k(A)| ∣Nk(A)∣的值也越大,对应的 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|} ∣Nk(A)∣∑B∈Nk(A)distancek(A,B)也就小,对应局部可达密度为 1 ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ \frac{1}{\frac{\sum_{B\in N_k(A)} distance_k(A,B)}{|N_k(A)|}} ∣Nk(A)∣∑B∈Nk(A)distancek(A,B)1也就越大,这个指标可以衡量A点与B点之间点的密集程度。
通过计算在A点附近的k个点与A点的局部可达距离比值的平均值对A点的离散程度进行评估。
如上图所示,其中局部离群因子点数值为7.6259的点为离群点。
在处理回归问题的时候,如果能提前出去离群点的话,能够简化回归的过程。
3 数据集成
对重复数据进行处理的例子
冗余数据处理
数据冗余的问题,可能多个数据所表述的是同一个意义。
3.1 相关分析(数值分析)
3.1.1 皮尔逊相关系数
通过一些评价指标对变量之间的相关性进行分析,对应的数学原理之后再细看。
3.1.2 协方差
协方差的例子
相关性的视觉表现
3.1.3 通过卡方值进行衡量
卡方分析的例子
3.2 数据变换
3.3 数据规范化
4 数据归约
4.1 数据规约策略
4.2 数据立方体聚集
4.1.1 基本概念
4.1.2 基本操作
- 钻取
- 上卷
- 切片
- 切块
- 旋转(在这之中最常用到的就是旋转操作,需要对维度的不同角度进行观察的时候)
4.3 数据压缩
4.4 维度规约-特征选择
4.5 维度规约-启发式特征选择方法
特征子集搜索(Feature Subset Search)
分支界定,如果(2,3)节点的属性值为0.8,而(1,3|4|5)的值为0.75,则后续的都不需要
4.6 PCA
4.6.1 PCA的数学原理
PCA在二维上的例子,对数据有着要求,要去数据的分布情况要近似的满足高斯分布,要求数据量要足够多。
在进行pca降维的时候,需要尽可能的将两个维度之间的相关性剔除,在尽可能低的维度上寻找正交基。
涉及到的推导过程如下:
4.6.2 PCA简述
pca算式推导的这边部分,涉及到线性代数的知识,在之后需要对这部分的知识再进行补充。
特征值和特征向量的求法。
4.7 数据规约
4.8基本模型介绍
- 线性回归:数据拟合到一条直线上
- 通常使用最小二乘法拟合
- 多元线性回归
- 允许响应变量Y表示为多个预测变量的函数
- 对数函数模型
- 近似离散的多位概率分布
4.8.1 回归分析
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OcWPwYMR-1601387738742)(…/…/…/…/Library/Application%20Support/typora-user-images/image-20200929214520988.png)]
4.8.2 聚类
###4.8.3 抽样
4.8.3.1 抽样类型
简单随机抽样和无放回的随机抽样
5 小结
-
Data preparation is a big issue for both warehousing and mining
-
Data preparation includes
- Data cleaning and data integration
- Data reduction and feature selection
- Discretization
-
A lot a methods have been developed but still an active area of research