数据预处理
数据挖掘的第一步就是先对数据进行预处理。既然对数据进行处理,我们就需要先认识一下数据。
数据属性
数据带有属性(attribute),属性使用属性值(attribute)去表示。例如身高属性,属性值为高度
属性的类型分类一般有四种,Nominal(名字的)(例如西瓜重量),Ordinal(时序的)(例如分数),Interval(间隔的)(例如 日历的日期)Ratio(比例的)(例如 温度)
下面的图片总结了数据的属性特点:
数据集的类型
普通类型:
- 记录数据(文件数据,交易数据)
- 有序的 (基因序列)
- 图 (图数据)
一般的特点: - 降维 dimensionality
- 稀疏化 sparsity
- 偏度 skewness
数据的描述概括
描述数据一般会用到数据的几个特点:均值 Mean、中值 Median、众数 Mode、方差 Variance (描述数据离散度)
测量集中趋势
马尔可夫不等式(Markov’s inequality)
切比雪夫不等式(chebychev inequality)
切比雪夫不等式可以利用马尔可夫不等式证明。
将作为,作为代入马尔可夫不等式,很容易进行证明
霍夫丁不等式(Hoeffding’s inequality)
变量互相独立,并且,
数据统计的图形化描述
箱型图分析(Boxplot Analysis)、直方图分析(Histogram Analysis)、分位数图(Quantile plot) 、分位数-分位数图(Q-Q图)、散点图(Scatter Plot)、回归曲线拟合
数据预处理的主要任务
- Data cleaning 数据清洗
- Data integration 数据集成
- Data transformation 数据转换
- Data reduction 数据简化
- Data discretization 数据离散化