1概率论、数理统计、统计学
《概率论》和《数理统计》的核心概念如下:
事件的概率—》随机变量的分布—》大数定律、中心极限定理—》数理统计
分布分为离散分布和连续分布,重要的离散分布有二项分布(即n次伯努利试验)和泊松分布,正态分布算是最重要的连续分布。
《统计学》分为描述统计、推断统计。描述统计指对数据的收集、处理、可视化和描述等。
推断统计指利用样本数据推断总体特征;
其核心思想为从总体中抽取样本构造适当的统计量,由样本性质去推断关于总体的性质;
推断统计会用到概率论和数理统计的知识,且以数理统计知识为主;
推断统计的中心内容为抽样分布、参数估计、假设检验这3个。
2推断统计学的3个中心内容
推断统计指利用样本数据推断总体特征,推断统计的中心内容为抽样分布、参数估计、假设检验这3块。
2.1抽样分布
掌握样本统计量服从哪些分布,这是参数估计和假设检验的基础。
2.1.1统计量
X是服从某个分布的总体,从中抽样获得X1,。。。,Xn,构造样本统计量F=F(X1,。。。,Xn)(如样本均值、样本方差),F也服从某个分布。
2.1.2分布
这里我们更关心样本统计量服从的分布。
分布可以分为三大类:
1(精确)抽样分布——用于小样本
统计量F(X1,。。。,Xn)的精确分布。一般不容易得到,已知的精确抽样分布大多在正态总体的假设下得到,主要有卡方分布、t分布、F分布,它们被称之为统计三大分布。
2渐近分布——用于大样本
样本数n无穷时的极限分布。
3近似分布
利用计算机模拟获得。
统计三大分布(由正态分布导出):卡方分布、t分布、F分布
卡方分布:Xi独立同分布于标准正态分布,则……
T分布:……
F分布:……
中心极限定理是渐近分布的基础。
中心极限定理:……
在实际中,一般以n=30为分界,即当n>=30时,可以使用中心极限定理来近似。
具体的分布,另附。
2.2参数估计
利用样本统计量去估计总体的参数。(总体的参数未知。)
【形式】
最终的估计形式为(f 加减 delta),delta可利用样本统计量服从的分布和附加的置信水平(1-alpha)确定。
【样本容量】
根据置信水平和误差,可以确定最小样本量。
2.3假设检验
已知一个总体及部分参数。现在有另外一个总体(该总体可能显式存在、可能隐式存在),其参数未知,我们获取了一些样本,利用样本的信息去判断(验证或者推翻)关于总体的一些信息。
【关于原假设】
假设检验的原假设有门道,另附。
【样本容量】
假设检验对样本容量也是有一套理论的,可以想象,容量总是越大越好。这块理论可参见相关文档。
【假设检验用于相关分析(广义)】
此外,假设检验可以应用于查看两个总体的均值、方差(针对连续性变量)等有无显著性差异,所以可以用于区分两个总体是否在某个指标上有显著性差异,与变量相关性挂钩。后面会介绍的方差分析是其推广。
【关于检验统计量】
在假设检验时,我们会构造一个统计量,称为检验统计量,常见的有Z统计量、t统计量、卡方统计量、F统计量。其对应的检验方法可称为Z检验(法)、t检验(法)、卡方检验(法)、F检验(法)。
下文中也会提到卡方检验,不同的场景含义不一样,但是追根溯源的话,有些思想是统一的。大致说来,一个差量绝对度量(如绝对值、平方等)加权之和可以归类到卡方统计量。
3变量之间的相关分析(广义)
相关分析(广义)研究变量之间的关系(也属于样本推测总体,更强调两个变量之间的关系)。
3.1卡方检验(离散变量VS离散变量)
分析两个离散变量之间的相关性的手段主要是独立性检验(列联表分析)。独立性检验属于卡方检验的一种。(卡方检验可分为拟合优度检验和独立性检验(列联表分析)。)
===插曲begin===
拟合优度检验对1个离散变量进行检验,它计算离散变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著性差异。其实,拟合优度检验还可以针对两个离散变量且其中一个离散变量有2个取值的情形。
===插曲end===
列联表中的相关性测量。有psi相关系数、c系数、V相关系数。
注:先做卡方检验,再求相关系数。
3.2方差分析(离散变量VS连续变量)
方差分析在形式上是比较多个总体的均值是否相等,本质上是研究变量之间的关系。
需要注意,方差分析是有几个假设条件的!
假设1:每个总体服从正态分布。
假设2:各个总体的方差sigma^2必须相同。
假设3:观测值独立。
以单因素方差分析为例,讲解整个过程思路。
原假设:不同组间无显著性影响
基本原理:总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
组间均方MSA=SSA/自由度
组内均方MSE=SSE/自由度
F=MSA/MSE 服从F分布
相关性度量
判定系数R^2=SSA/SST
R定义为相关系数。
注:先做方差分析,再求相关系数。
如果原假设被推翻,但是此时我们还不知道到底是哪两个组间差距大造成的,就需要再继续分析,此时可用多种方法,其中一种是最小显著差异方法(LSD)。
补充:除了方差分析,还可以使用假设检验的方法作离散变量和连续变量的相关分析,尤其是针对离散变量有2个取值情况(对应于二分类问题)。方差分析有一个前提是“假设2:各个总体的方差sigma^2必须相同。”,而t检验(检验两个总体的均值是否相等)和F检验(也叫方差齐次性检验,检验两个总体的方差是否相等)合用,可以不需要该假设。
3.3相关分析(连续变量VS连续变量)
相关分析(狭义)用于研究两个连续变量之间的相关分析(广义)。
相关系数有很多种,我们一般研究线性相关系数。线性相关系数(pearson相关系数),其表达式如下:
关于相关系数的显著性检验。
原假设:r=0
利用t检验,无论样本数n大还是小,都可以。
注:先求相关系数,再做显著性检验
4回归分析
研究Y变量与多个X变量之间的方程。
感觉:回归分析是相关分析(狭义)的延伸,在谈到回归分析时,一般要求X与Y都需要是连续变量。