数据统计特性
数据的中心度量
均值
加权算术均值
截断均值
排序后,丢弃高端和低端的(p/2)%的数据,然后用常规方法计算均值
中位数
排序后,如果N是奇数,则中位数是有序集的中间值,否则中位数是有序集中间两个值的平均值
众数
集合中出现频率最高是值
中列数
最大值和最小值的均值
百分位数
有\(k%\)的数字小于或等于\(x\),那么\(x\)是第\(k\)二个百分位数.
中位数是第\(50\)个百分位数
数据散布度量
极差
总体方差
样本方差
其他
绝对平均偏差,中位数绝对偏差,四分位数极差
数据预处理
数据清理
缺失值的处理方法
-
忽略元组
-
忽略属性列
-
人工填写缺失值
-
自动填充缺失值
- 使用一个全局变量填充缺失值
- 使用与给定记录属同一类的所有样本 的均值或者众数填充默认值
- 用可能值来代替缺失值
噪音数据的平滑方法
-
分箱
有序值被分到一定的箱中,进行局部平滑.
- 平均值平滑
- 中值平滑
- 边界平滑,箱中的每个数被最近的边界值替代
-
聚类
聚类将类似的值组织成簇,利群点可以被聚类检测,直观的,落在簇集合之外的值被视为异常值.删除离群点来平滑数据
-
回归
使用回归方法让数据适合一个函数来平滑数据
数据聚合
将两个或多个数据源中的数据,存放到一个一致的数据存储设备中.
数据变换
数据变换将数据转换成适合于挖掘的形式
平滑
去除数据中的噪声
聚集
对数据进行汇总或聚集
数据泛化
使用概念分层,用高层概念替换底层或原始的数据.
规范化
将数据等比例缩放,使之落入一个小的特定区间
-
最大最小规范化
做线性变换\(z_{if}=\frac{x_{if}-min_f}{max_f-min_f}(b-a)+a\),将值转换到\([a,b]\)区间
-
z-score规范化
计算平均值\(E_f\),标准差\(\sigma_f\),规范化的度量值\(z_{if}=\frac{x_{if}-E_f}{\sigma_f}\)
-
小数定标规范化
通过移动属性\(f\)的小数点位置进行规范化.小数点的移动位数依赖于\(f\)的最大绝对值.规范值\(v\'=\frac{v}{10^j}\),\(j\)是使\(max(|v\'|)<1\)的最小整数.
数据离散化
离散化问题就是决定选择多少个分割点和确定分割点位置的问题,利用小数分类值标记替换连续属性的数字,从而减少和简化原来的数据
无监督离散化
- 等宽离散化:将属性的值域划分成具有相同宽度的区间
- 等频离散化:试图将相同数量的对象放进每个区间
- 聚类分析离散化:将数据划分为簇
数据归约
维度规约和特征变换
通过使用数据编码或变换,得到原始数据的归约或压缩表示.
- 离散小波变换(DWT)
- 主成分分析
抽样
- 有放回简单随机抽样方法
- 无放回简单随机抽样方法
- 分层抽样方法
相似性度量
属性之间的相似性度量
标称和区间属性
| 属性类型 | 相异度 | 相似度 |
|---|---|---|
| 标称型 | 如果x=y,d=0 如果x!=y,d=1 |
如果x!=y,s=0 如果x=y,s=1 |
| 区间或比例型 | \(d=abs(x-y)\) | \(s=\frac{1}{1+d},s=e^{-d},s=1-\frac{d-min_d}{max_d-min_d}\) |
序数属性
属性\(f\)有\(M_f\)个有序状态,将属性值\(x_f\)替换为响应的等级\(r_f,r_f\in[1,M_f]\).
将序数属性等级\(r_f\)做变换\(z_f=\frac{r_f-1}{M_f-1}\),映射到区间\([0,1]\)上.
利用有关区间间隔数字属性的任意一种距离计算公式来计算差异程度.
比例数值属性
- 将比例数字变量当作区间间隔数字变量来进行计算,可能导致非线性的比例尺寸被扭曲
- 将比例数字看成是连续的序数属性来处理
- 利用变换来处理属性\(f\)的值\(x_f\)得到\(y_f\),将\(y_f\)当作间隔变量来处理
对象之间的相似性度量
minkowski距离
\(x=1,2,\infty\)时,对应哈曼顿距离,欧几里得距离,切比雪夫距离
其他
马氏距离,canberra距离