数据预处理

数据挖掘的第一步就是先对数据进行预处理。既然对数据进行处理,我们就需要先认识一下数据。

数据属性

数据带有属性(attribute),属性使用属性值(attribute)去表示。例如身高属性,属性值为高度
属性的类型分类一般有四种,Nominal(名字的)(例如西瓜重量),Ordinal(时序的)(例如分数),Interval(间隔的)(例如 日历的日期)Ratio(比例的)(例如 温度)
下面的图片总结了数据的属性特点:
大数据挖掘之数据预处理

数据集的类型

普通类型:

  • 记录数据(文件数据,交易数据)
  • 有序的 (基因序列)
  • 图 (图数据)
    一般的特点:
  • 降维 dimensionality
  • 稀疏化 sparsity
  • 偏度 skewness

数据的描述概括

描述数据一般会用到数据的几个特点:均值 Mean、中值 Median、众数 Mode、方差 Variance (描述数据离散度)

测量集中趋势

马尔可夫不等式(Markov’s inequality)

P(Xa)E(X)aifX0,a0 P(X\gg a)\ll\frac{E(X)}{a} \qquad ifX\gg0,a\gg0
切比雪夫不等式(chebychev inequality)
P(Xμa)σ2a2 P(|X-\mu|\gg a)\ll \frac{\sigma^{2}}{a^{2}}
切比雪夫不等式可以利用马尔可夫不等式证明。
(Xμ)2(X-\mu)^{2}作为XX,a2a^{2}作为aa代入马尔可夫不等式,很容易进行证明
霍夫丁不等式(Hoeffding’s inequality)
P((XE(X))>c)e2nc2(ba)2c>0 P((X-E(X))>c)\ll e^{-2\frac{nc^{2}}{(b-a)^{2}}}\qquad c>0
变量X1,X2...XnX_1,X_2...X_n互相独立,并且aXib(i=1,....n)a\ll X_i\ll b(i=1,....n),X=i=1nXinX=\frac{\sum_{i=1}^nX_i}{n}

数据统计的图形化描述

箱型图分析(Boxplot Analysis)、直方图分析(Histogram Analysis)、分位数图(Quantile plot) 、分位数-分位数图(Q-Q图)、散点图(Scatter Plot)、回归曲线拟合

数据预处理的主要任务

  • Data cleaning 数据清洗
  • Data integration 数据集成
  • Data transformation 数据转换
  • Data reduction 数据简化
  • Data discretization 数据离散化

相关文章: