数据又什么类型的属性或字段组成?每个属性具有何种类型的数据值?哪些数据是离散的,哪些数据是连续值的?有什么方法可以可视化的观察数据,以便更好理解?
数据对象与属性类型
数据集由数据对象组成,一个数据对象代表一个实体,数据对象又称为样本、实例、数据点或对象。数据对象用属性描述
属性
属性是一个数据字段,表示数据对象的一个特征。在文献中,属性(attribute),维度(dimension),特征(feature)或变量(varoable)可以互换使用。
属性的类型由该属性可能具有的值的集合决定
- 标称属性:nominal attribute 值为一些符号或事务的名称,每个值代表某种类别,编码或状态。
- 二元属性:是一种标称属性,只有两个类别或状态“0或1,通常0表示该属性不出现,1表示出现。
- 序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
标称,二元或序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。
- 数值属性:numeric attribute 是定量的,可度量的量,用整数或实数值表示。
- 离散属性和连续属性
数据的基本统计描述
- 中心趋势度量:均值,中位数和众数
加权均值
- 度量数据散布:极差、四分位数、方差、标准差和四分位极差