统计学学习心得

1概率论、数理统计、统计学

《概率论》和《数理统计》的核心概念如下：

事件的概率—》随机变量的分布—》大数定律、中心极限定理—》数理统计

分布分为离散分布和连续分布，重要的离散分布有二项分布（即n次伯努利试验）和泊松分布，正态分布算是最重要的连续分布。

《统计学》分为描述统计、推断统计。描述统计指对数据的收集、处理、可视化和描述等。

推断统计指利用样本数据推断总体特征；

其核心思想为从总体中抽取样本构造适当的统计量，由样本性质去推断关于总体的性质；

推断统计会用到概率论和数理统计的知识，且以数理统计知识为主；

推断统计的中心内容为抽样分布、参数估计、假设检验这3个。

2推断统计学的3个中心内容

推断统计指利用样本数据推断总体特征，推断统计的中心内容为抽样分布、参数估计、假设检验这3块。

2.1抽样分布

掌握样本统计量服从哪些分布，这是参数估计和假设检验的基础。

2.1.1统计量

X是服从某个分布的总体，从中抽样获得X1，。。。，Xn，构造样本统计量F=F(X1，。。。，Xn)（如样本均值、样本方差），F也服从某个分布。

统计学学习心得

2.1.2分布

这里我们更关心样本统计量服从的分布。

分布可以分为三大类：

1（精确）抽样分布——用于小样本

统计量F(X1，。。。，Xn)的精确分布。一般不容易得到，已知的精确抽样分布大多在正态总体的假设下得到，主要有卡方分布、t分布、F分布，它们被称之为统计三大分布。

2渐近分布——用于大样本

样本数n无穷时的极限分布。

3近似分布

利用计算机模拟获得。

统计三大分布（由正态分布导出）：卡方分布、t分布、F分布

卡方分布：Xi独立同分布于标准正态分布，则……

T分布：……

F分布：……

中心极限定理是渐近分布的基础。

中心极限定理：……

在实际中，一般以n=30为分界，即当n>=30时，可以使用中心极限定理来近似。

具体的分布，另附。

2.2参数估计

利用样本统计量去估计总体的参数。（总体的参数未知。）

【形式】

最终的估计形式为(f 加减 delta)，delta可利用样本统计量服从的分布和附加的置信水平（1-alpha）确定。

【样本容量】

根据置信水平和误差，可以确定最小样本量。

2.3假设检验

已知一个总体及部分参数。现在有另外一个总体（该总体可能显式存在、可能隐式存在），其参数未知，我们获取了一些样本，利用样本的信息去判断（验证或者推翻）关于总体的一些信息。

【关于原假设】

假设检验的原假设有门道，另附。

【样本容量】

假设检验对样本容量也是有一套理论的，可以想象，容量总是越大越好。这块理论可参见相关文档。

【假设检验用于相关分析（广义）】

此外，假设检验可以应用于查看两个总体的均值、方差（针对连续性变量）等有无显著性差异，所以可以用于区分两个总体是否在某个指标上有显著性差异，与变量相关性挂钩。后面会介绍的方差分析是其推广。

【关于检验统计量】

在假设检验时，我们会构造一个统计量，称为检验统计量，常见的有Z统计量、t统计量、卡方统计量、F统计量。其对应的检验方法可称为Z检验（法）、t检验（法）、卡方检验（法）、F检验（法）。

下文中也会提到卡方检验，不同的场景含义不一样，但是追根溯源的话，有些思想是统一的。大致说来，一个差量绝对度量（如绝对值、平方等）加权之和可以归类到卡方统计量。

3变量之间的相关分析（广义）

相关分析（广义）研究变量之间的关系（也属于样本推测总体，更强调两个变量之间的关系）。

3.1卡方检验（离散变量VS离散变量）

分析两个离散变量之间的相关性的手段主要是独立性检验（列联表分析）。独立性检验属于卡方检验的一种。（卡方检验可分为拟合优度检验和独立性检验（列联表分析）。）

===插曲begin===

拟合优度检验对1个离散变量进行检验，它计算离散变量中各类别的期望频数，与观察频数进行对比，判断期望频数与观察频数是否有显著性差异。其实，拟合优度检验还可以针对两个离散变量且其中一个离散变量有2个取值的情形。

===插曲end===

列联表中的相关性测量。有psi相关系数、c系数、V相关系数。

注：先做卡方检验，再求相关系数。

3.2方差分析（离散变量VS连续变量）

方差分析在形式上是比较多个总体的均值是否相等，本质上是研究变量之间的关系。

需要注意，方差分析是有几个假设条件的！

假设1：每个总体服从正态分布。

假设2：各个总体的方差sigma^2必须相同。

假设3：观测值独立。

以单因素方差分析为例，讲解整个过程思路。

原假设：不同组间无显著性影响

基本原理：总平方和（SST）=组间平方和（SSA）+组内平方和（SSE）

组间均方MSA=SSA/自由度

组内均方MSE=SSE/自由度

F=MSA/MSE 服从F分布

3.3相关分析（连续变量VS连续变量）

相关分析（狭义）用于研究两个连续变量之间的相关分析（广义）。

相关系数有很多种，我们一般研究线性相关系数。线性相关系数（pearson相关系数），其表达式如下：

统计学学习心得

关于相关系数的显著性检验。

原假设：r=0

利用t检验，无论样本数n大还是小，都可以。

注：先求相关系数，再做显著性检验

4回归分析

研究Y变量与多个X变量之间的方程。

感觉：回归分析是相关分析（狭义）的延伸，在谈到回归分析时，一般要求X与Y都需要是连续变量。