数据的预处理

数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。

1.1数据预处理

1.1.1 数据审核
数据审核就是检查数据中是否有错误。通过原始数据(raw data),需要从完整性和准确性两个方面去审核。

  • 完整性审核:主要检查应调查的单位或者个体是否有遗漏,所有的调查项目是否填写齐全。
  • 准确性审核:主要是检查数据是否有错误,是否存在异常值等。如果记录错误,则纠正,否则保留。

如果是二手数据,应着重于审核数据的时效性和实用性。

1.1.2 数据筛选(data filter)
是根据需要找出符合特定条件的某类数据。

1.1.3 数据排序
数据排序是指按一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显特征趋势,找到解决问题的线索。

同时排序还有利于对数据进行检查纠错。

1.1.4 数据透视表
可以对数据表的重要信息按使用者的习惯或分析要去进行汇总和作图,形成一个符合要求的交叉表(列联表)。使用时首行必须有列标题
由两个或两个以上变量交叉分类的频数分布也称列联表(contingency table)。
二维的列联表又称交叉表(cross table)

1.2 品质数据的整理与展示

数据经过预处理后,可根据需要进一步的做分类分组。处理时,不同类型的数据的处理方式和适用的处理方法是不同的。
对品质数据主要是做分类整理。对数值型数据主要是做分组整理。前者包括分类数据和顺序数据。

1.2.1 分类数据的整理和展示
分类数据本身就是对事物的一种分类。因此首先列出所分的类别,然后计算每一页的频数、频率、或比例、比率等,即可形成频数分布表。最后根据需求进行合理的图形展示。

  1. 频数和频数分布
  • 频数(frequency)是落在某一特定类别或组中的数据个数。
    把各个相应得频数全部列出,并用表格的形式表现出来,就是频数分布。

  • Excel中生成频数分布表的形式
    【透视表】
    【直方图】

  1. 分类数据的图示
  • 条形图(bar chart)
    使用宽度相同的条形的高度的或长短来表示数据多少的图形,条形图可以横置或纵置,纵置是也称柱形图(column chart),同时还分为简单条形图和复式条形图。
  • 帕累托图(Pareto chart)
    该图是按各类别出现的频数多少排序后绘制的条形图。通过对条形的排序,很容易看出数据多少。
  • 饼图(pie chart )
    使用圆形及圆内扇形角度来表示数值大小的图形。它主要表是一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题有用。
  • 环形图
    简单饼图只能表示一个样本个部分的所占比例。多个样本叠加在一起,需要挖去中间叠加的部分,就是环形图。
    与饼图类似,环形图可以显示多个样本各部分所占的相应比例,有利于对构成做比较研究。

1.2.2 顺序数据的整理和展示
以上介绍的都适用于对顺序数据的整理和图示。但一些顺序数据的整理和图示方法并不适用分类数据。除以上还可以计算累积频数和累积频率(百分比)

1 . 累积频数和累积频率
累积频数(cumulative frequencies ) 是将各有序类别或组的频数逐渐累加起来得到的频数,频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加数值(数值型数据则是从数值小的到数值大的累加频数),称向上累积。与之相反,则是向下累积。
通过累积频数,可以很容易看出某一类别(或数值)向下或向上的频数之和。
**累积频率(百分比)**是将各类别或者分组的百分比累加起来,同时也有向上累积和向下累积两种方法。

2 . 顺序数据的图示
根据累积频数和累积频率可以绘制累积频数分布或频率图。
数据的图表展示

1.3数值型数据的整理和展示

1.3.1 数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据成为分组数据(grouped data)
其目的是观察数据分布特征,然后计算各组数据频数,就形成了频数分布表。
方法有单变量值分组和组距分组两种。单变量值适合离散变量。
组距变量就是将全部变量分成若干个区间,一个区间为一组。最小值为下限(lower limit),反之上限(upper limit)

组距(class width):指一组数据上限与下限的差
组中值 (class midpoint):(上限值+下限值)/ 2

1.3.2 数值型数据的图示
以上图示饼图、环形图及累积分布均是用于数值型数据
以下图示并不适用于分类数据和顺序数据。

1.分组数据:直方图(histogram)
用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。另外显示数据频数分布特征的还有折线图、曲线图等。
直方图用于数值型数据,条形图用于分类数据。

2 . 未分组数据:茎叶图和箱线图、

  • 茎叶图(stem-and-leaf display)是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字构成的,通常高位数表示茎,最后一位数字表示叶。通过图形,可以看出数据的分布形状和离散状况。比如:分布对称、数据是否集中、是否有离散点。
    茎叶图类似于横置的直方图,相比之下,茎叶图即能给出原始值,还有数据分布状况。茎叶图用于小量数据。
  • 箱线图(box plot)
    根据一组数中最大值,最小值,中位数,两个四分位数,这个五个特征值绘制成的。数据的图表展示

通过箱线图的形状查看数据分布特征。
数据的图表展示

3 . 时间序列数据:线图
如果数值型数据是在不同时间取得的,即时间序列数据,则可以绘制线图。
线图(line plot) 主要用于反应现象随时间变化的特征。

4 . 多变量数据的图示:以上为单变量的图示方法,多变量即可用散点图,气泡图,雷达图,

  • 散点图(scatter diagram) 使用二维坐标展示两个变量之间关系的一种图形。 横坐标x,纵坐标y,点(x,y)
  • 气泡图(bubble chart )可用于展示三个变量之间的关系。横轴。纵轴。第三个变量为气泡的大小。
  • 雷达图(radar chart)显示多个变量的常用方法,又称蜘蛛图(spider chart)

数据类型的主要图示方法;

数据的图表展示

1.4合理使用图表

1.4.1鉴别图表的优劣准则
特征:
(1)显示数据
(2)注意力集中图形内容,不是制作程序
(3)避免歪曲
(4)强调数据间的比较
(5)服务于明确的目的
(6)有统计描述和文字说明
准则:
(1)精心设计,洞察问题
(2)复杂观点阐述简明、确切、高效
(3)最短时间提供最多内容
(4)多维
(5)表述数据真实

1.4.2 统计表设计
首先合理安排表结构,其次表头明确包括(表号、总标题、表中数据),再次格式整洁,最后加上注释。

相关文章: