数据的维度描述

数据的描述维度：

数据的维度主要用集中趋势、离散程度、分布形态三块表示。

一、集中趋势

1.算数平均值

2.加权算数平均值

注：算数平均值是特殊的加权算数平均值，其每个权重均为1；同时如果数据样本中出现极大值、极小值时，再计算平均值，其实际的意义可能就会打折扣，如我们经常说的被平均了。

3.几何平均值
$x_j=\sqrt{x_1 x_2 \cdots x_n}$
示例：制造企业使用几何平均数识别产线上的隐形损耗

4.众数：出现次数最多的数

注：如果一个样本集中有两个众数，可以考虑它们是否来自于两个不同的样本集。众数表明数据真实的聚集情况

5.中位数

中位数，不受数据集合中个别极端值的影响，表现稳定。在数据集合的数据分布有较大偏斜时，能够保持对数据集合特征的代表性。

二、数据的离散程度

1.极差
$R = {x_{max}}-{x_{min}}$
2.平均偏差
$R_a=\sum_{n=1}^{n}|x_i-\vec{x}|/n$
代表了所有数值与平均值的平均偏差距离。

3.总体的方差和标准差
$\sigma^2=\sum_{i=1}^{N}(x_i-u)^2/N$

$\sigma=\sqrt{\sum_{i=1}^{N}(x_i-u)^2/N}$

u为均值，含有N个数据的数据集合
$（x_1,x_2,\cdots,x_n）$
4.样本的方差和标准差
$\vec{x},s^2$

$s^2=\frac{\sum_{i=1}^{n}(x_i-\vec{x})^2}{n-1}$

注：在消除负数时，可以使用绝对值或者平方等形式进行。

无偏估计：
$s_n^2=\frac{\sum_{i=1}^{n}(x_i-\vec{x})^2}{n}$
假设样本均值为
$\vec{x},总体均值为u,上述公式可以变换为$

$s_n^2=\frac{\sum_{i=1}^{n}((x_i-u)-(\vec{x}-u))^2}{n}$

$s_n^2=\frac{1}{n}\sum_{i=1}^{n}[(x_i-u)^2-2(x_i-u)(\vec{x}-u)+(u-\vec{x})^2]$

$s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-u)^2-\frac{2}{n}\sum_{i=1}^{n}(x_i-u)(\vec{x}-u)+\frac{1}{n}\sum_{i=1}^{n}(u-\vec{x})^2$

$s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-u)^2-\frac{2}{n}[n(\vec{x}^2-u\vec{x})-u(\vec{x}-u)n]+\frac{1}{n}\sum_{i=1}^{n}(u-\vec{x})^2$

$s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-u)^2-2(\vec{x}^2-2u\vec{x}+u^2)+(u-\vec{x})^2$

$s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-u)^2-(\vec{x}-u)^2$

如果从总体中多次抽取容量为n的样本，并分别计算分母为n的样本方差
$s_n^2，那么容易得到样本方差的均值s_n^2$

$E({s_n^2})=\sigma^2-\frac{\sigma^2}{n}$

分母为n-1的样本方差
$s^2 和s_n^2 有以下关系$

$s^2=\frac{\sum_{i=1}^{n}(x_i-\vec{x})^2}{n-1}=\frac{n}{n-1}\frac{\sum_{i=1}^{n}(x_i-\vec{x})^2}{n}=\frac{n}{n-1}s_n^2$

$E(s^2)=E(\frac{n}{n-1}s_n^2)=\frac{n}{n-1}E(s_n^2)=\frac{n}{n-1}\frac{n-1}{n}\sigma^2=\sigma^2$

可以得出分母为n-1的样本方差是总体方差的无偏估计。

样本标准差
$s=\sqrt\frac{\sum(x_i-\vec{x})^2}{n-1}$

$\vec{\sigma}=\frac{1}{\sqrt{2n}}\sigma$

$\vec{\sigma} 为样本标准差s距离总体标准差\sigma的距离，样本标准差估计总体标准差，估计误差将随着样本容量n的增大而降低，一般样本容量大于30，估计误差降低至0.13\sigma$

5.分类数据：异众比率

指非众数组的频数占总频数的比例 ,
$V_r=\frac{\sum{f_i}-f_m}{\sum{f_i}}=1-\frac{f_m}{\sum{f_i}}$

$式中，\sum{f_i} 为变量值的总频数；f_m为众数组的频数$

异众比率主要用于衡量众数对一组数据代表成都。异众比例越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；反之亦然。

6.标准分数

变量值与其平均数的离差除以标准差后的值成为标准分数standard score ,也成为标准化值
$z_i=\frac{x_i-\vec{x}}{s}$
标准分数给出了一组数据中各数值的相对位置。再对变量标准化处理时常用到。

上述公式时一组线性变换公式（其他公式再其他有介绍），经过上述变换后该组数据变为平均数为0，标准差为1的一组数据。
$\sigma , 2\sigma , 3\sigma 根据经验或统计知识，对于对称分布的数据，约有68\%的数据分布在 \pm1个标准差的范围内，约有95\%的数据在\pm2个标准差的范围内，约有99\%的数据在平均数为\pm3个标准差的范围内。$
有些时候，可以统计对应的离群点

7.针对不对称的数据可以采用切比雪夫不等式
$至少有(1-1/k^2)的数据落在\pm k个标准差之内。$
8.变异系数 coefficient of variation

一般对一组数据分析离散型，可先分析平均数，再看标准差，再看离散系数（变异系数）。逐层分析，如果前者指标数据比较接近，可以递进分析。

方差和标准差虽然能够表示数据集合中每个值距离算数均值的平均偏离距离，但是这个距离的大小程度却不能很好的体现。因此用变异系数表述
$总体的变异系数： V\sigma=\frac{\sigma}{u}$

$样本的变异系数:V_s=\frac{s}{\vec{x}}$

变异系数，是不带有单位的。因此他可以衡量同类事物的离散程度，还可以说明不同类型事务的相对离散程度。在标准差相同或者标准差较小时，可以用变异系数衡量一下离散程度。

9.四分位极差
$四分位极差=第三四分位数-第一四分位数 = （Q_3-Q_1）$
这个极差包含整个数据集合50%的数据值。

三、数据的分布形态:偏态与峰态

数据分布是否是对称，偏斜程度以及分布的扁平程度的，这就要分析数据分布形状的偏态与峰态。

1.偏态及测度偏态系数 coefficient skewness (sk)
$未分组的原始数据计算偏态系数时，SK=\frac{n\sum(x_i-\vec{x})^3}{(n-1)(n-2)s^3}$
如果一组数据的分布是对称的，则偏态系数等于0；如果偏态系数明显不等于0，则表明是非对称分布。如果偏态系数大于1，或小于-1，则称为高度偏态分布；若果偏态系数再0.5_1或者-1-0.5之间，被认为中等偏态分布；偏态系统越接近0，偏斜程度就越低。
$对于分组的数据计算偏态系数，可采用 SK=\frac{\sum_{i=1}^{k}(M_i-\vec{x}^3f_i)}{ns^3}$
2.峰态及其测度峰态系数 coefficient of kurtosis (k)

峰态通常是与标准正态分布相比较而言。如果一组数据服从标准正太分布，则峰态系数的值等于0；若果峰态的值明显不等于0，则表明分布比正态分布更平或更尖，通常称为平峰分布或尖峰分布。
$未分组的数据计算峰态系数，K=\frac{n(n+1)\sum(x_i-\vec{x})^4-3[\sum(x_i-\vec{x})^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}$

$分组数据计算，K= \frac{\sum_{i=1}^{k}(M_i-\vec{x})^4f_i}{ns^4}-3$

注：本文在写作时参考了《人人都会数据分析从生活实例学统计》电子工业出版社；《统计学》贾俊平老师版，其中图使用了贾老师书中截图。本文是两本书的学习笔记。