xinlanzhang7319

1,信息图形化

2,平均数

3,全距

通过计算全距(也叫极差),我们可以轻易获知数据分散情况。全距指出数据的扩展范围,有点儿像测量数据的宽度。全距的计算方法是:用数据集中的最大数减去数据集中的最小数。

最小值成为下界,最大值成为上界。

全距是两度数据分散程度的既简单又方便的方法。通常并非描述数据在该全距内的分布形态的最好方法。

全距仅仅描述了数据的宽度,并没有描述数据在上,下界之间的分布形态。

4,四分位数

将数据一分为四,最小的四分位数称为四分位数,最大的四分位数称为上四分位数。中间的四分位数即中位数。

四分位距=上四分位数-下四分位数

四分位距剔除异常值。优点是:与全距相比,较少受到异常值的影响。由于四分位距仅用了处于中心部位的50%的数据。因此,无论异常值是极大值还是极小值,均被排除在外。异常值不可能处于中心部位---这意味着,数据中的所有异常值都被有效地剔除了。

 

5,百分位数

四分位数是将数据一分为四的数值,同理,百分位数是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,因此,第十百分位数就是位于数据范围10%处的数值。通常,第k百分位数就是位于数据范围k%处的数值,常用Pk表示。

6,用箱线图绘制各种“距”

箱线图可以专门用来显示各种各样的距。箱线图显示数据的全距,四分位距以及中位数。在同一张箱线图上可以比较几批数据,也就是说,箱线图是对不同数据集进行比较的极好方法。

如果你的数据中有异常值,则全距会更宽。在箱线图上,一条条线的长度会随着上,下界的增长而增长。通过观察箱线图上的线,就能了解数据的偏斜程度。

如果箱线图是对称的,表示基础数据很可能也相当对称。

7,变异性(方差,标准差)

方差是一种非常常用的描述数据分散性的方法。

标准差才是更直观的量度方法。标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。标准差可能得到的最小数值为0。

方差的速算法

8,标准分

使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同---标准分是对不同环境下的相关数据进行比较的一种方法。

 

分类:

技术点:

相关文章: