sn2=n1i=1∑n[(xi−u)2−2(xi−u)(x−u)+(u−x)2]
sn2=n1i=1∑n(xi−u)2−n2i=1∑n(xi−u)(x−u)+n1i=1∑n(u−x)2
sn2=n1i=1∑n(xi−u)2−n2[n(x2−ux)−u(x−u)n]+n1i=1∑n(u−x)2
sn2=n1i=1∑n(xi−u)2−2(x2−2ux+u2)+(u−x)2
sn2=n1i=1∑n(xi−u)2−(x−u)2
如果从总体中多次抽取容量为n的样本,并分别计算分母为n的样本方差
sn2,那么容易得到样本方差的均值sn2
E(sn2)=σ2−nσ2
分母为n-1的样本方差
s2和sn2有以下关系
s2=n−1∑i=1n(xi−x)2=n−1nn∑i=1n(xi−x)2=n−1nsn2
E(s2)=E(n−1nsn2)=n−1nE(sn2)=n−1nnn−1σ2=σ2
可以得出分母为n-1的样本方差是总体方差的无偏估计。
样本标准差
s=n−1∑(xi−x)2
σ=2n1σ
σ为样本标准差s距离总体标准差σ的距离,样本标准差估计总体标准差,估计误差将随着样本容量n的增大而降低,一般样本容量大于30,估计误差降低至0.13σ
5.分类数据:异众比率
指非众数组的频数占总频数的比例 ,
Vr=∑fi∑fi−fm=1−∑fifm
式中,∑fi为变量值的总频数;fm为众数组的频数
异众比率主要用于衡量众数对一组数据代表成都。异众比例越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;反之亦然。
6.标准分数
变量值与其平均数的离差除以标准差后的值成为标准分数standard score ,也成为标准化值
zi=sxi−x
标准分数给出了一组数据中各数值的相对位置。再对变量标准化处理时常用到。
上述公式时一组线性变换公式(其他公式再其他有介绍),经过上述变换后该组数据变为平均数为0,标准差为1的一组数据。
σ,2σ,3σ根据经验或统计知识,对于对称分布的数据,约有68%的数据分布在±1个标准差的范围内,约有95%的数据在±2个标准差的范围内,约有99%的数据在平均数为±3个标准差的范围内。
有些时候,可以统计对应的离群点
7.针对不对称的数据可以采用切比雪夫不等式
至少有(1−1/k2)的数据落在±k个标准差之内。
8.变异系数 coefficient of variation
一般对一组数据分析离散型,可先分析平均数,再看标准差,再看离散系数(变异系数)。逐层分析,如果前者指标数据比较接近,可以递进分析。
方差和标准差虽然能够表示数据集合中每个值距离算数均值的平均偏离距离,但是这个距离的大小程度却不能很好的体现。因此用变异系数表述
总体的变异系数:Vσ=uσ
样本的变异系数:Vs=xs