连续变量的统计描述与参数估计
1 连续变量的统计描述
1.1 集中趋势的描述指标
- 算数平均数
- 中位数
- 截尾均数
1.2 离散趋势的描述指标
- 全距/极差
- 方差或标准差
- 百分位数、四分位数和四分位间距
百分位数Px是一种位置指标,Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大
1.3 正态分布的描述指标
-
偏度
描述变量取值分布形态的统计量,指分布不对称的方向和程度。样本的偏度系数记为g1,偏度是与正态分布相比较而言的统计量。 -
峰度
描述变量取值分布形态陡缓程度的统计量,指分布图形的尖峭程度或峰凸程度。样本的峰度系数记为g2,峰度也是与正态分布相比较而言的统计量。
2 连续变量的参数估计
2.1 正态分布
标准正态分布(u分布/z分布)
2.2 参数的点估计
所选统计量是否适用于作为参数估计量
- 无偏性:虽然估计量的值不全等于参数,但应当在真实值附近摆动
- 一致性:样本量越大,估计值离真实值的差异应当越小
- 有效性:如果有两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值
例如均数和中位数,实际上两者在反映正态分布的集中趋势时,在无偏性和一致性上是一样好的,但中位数误差更大,所以应当尽量使用样本均数来反映正态分布的集中趋势
方法
- 矩法
在许多情况下,样本统计量本身往往就是相应的总体参数的最佳估计值,此时就可以直接取相应的样本统计量作为总体参数的点估计值。
例如样本均数、方差、标准差都是相应总体均数、方差、标准差的矩估计量。 - 极大似然法
原理:在已知总体分布,但未知其参数值时,在待估计参数的可能取值范围内进行搜索,使似然函数值最大的那个数值即为极大似然估计值
优点在于估计量通常能满足一致性、有效性等要求,且具有不变性。
不变性:当原始数据进行某种函数变换后,相应估计量的同一函数变换值仍是新样本的极大似然估计量。 - 稳健估计值
该统计量受数据异常值的影响较小,而且对大部分的分布而言都很好
M估计、R估计
2.3 参数的区间估计
虽然原始数据可能服从各种各样的分布,但是根据中心极限定理,当样本量n足够大(如n>50)时,其抽样均数都会近似服从正态分布,而此正态分布所对应的标准差就可用来表示抽样误差的大小,此即标准误。
区间估计的计算
3 Bootstrap方法
目的
- 判断原参数估计值是否准确
- 计算出更准确的可信区间,判断得出的统计学结论是否正确
思想
在原始数据的范围内做有放回的抽样,样本含量为n,原始数据中的每个观察单位每次被抽到的概率相等,为1/n,所得样本称为Bootstrap样本。于是可得到任何一个参数θ的一个估计值θ(b)。
方法
- 参数法
需假定θ(b)的分布状况 - 非参数法
无任何限制