数据又什么类型的属性或字段组成?每个属性具有何种类型的数据值?哪些数据是离散的,哪些数据是连续值的?有什么方法可以可视化的观察数据,以便更好理解?

 

数据对象与属性类型

数据集由数据对象组成,一个数据对象代表一个实体,数据对象又称为样本、实例、数据点或对象。数据对象用属性描述

 

属性

  属性是一个数据字段,表示数据对象的一个特征。在文献中,属性(attribute),维度(dimension),特征(feature)或变量(varoable)可以互换使用。

属性的类型由该属性可能具有的值的集合决定

  • 标称属性:nominal attribute 值为一些符号或事务的名称,每个值代表某种类别,编码或状态。
  • 二元属性:是一种标称属性,只有两个类别或状态“0或1,通常0表示该属性不出现,1表示出现。
  • 序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。

标称,二元或序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。

  • 数值属性:numeric attribute 是定量的,可度量的量,用整数或实数值表示。
  • 离散属性和连续属性

 

数据的基本统计描述

  • 中心趋势度量:均值,中位数和众数

 

KDD数据挖掘(韩家炜)学习----认识数据

 

加权均值

 

KDD数据挖掘(韩家炜)学习----认识数据

  • 度量数据散布:极差、四分位数、方差、标准差和四分位极差 

 

相关文章: