统计基础概念
两天的任务是看 可汗学院:统计学 视频复习基础知识。
样本和总体
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
-
总体 :population;
μ=N∑i=0Nxi=Nx1+x2+x3...+xN
-
样本:sample;
X=n∑i=0nxi=nx1+x2+x3...+xn
一些描述量
总体方差
σ2=N∑i=1N(xi−μ)2
样本方差
总体方差一般得不到,用样本方差估计总体方差。
S2=n∑i=1n(xi−x)2
上式经常低估总体方差,于是引入无偏估计:
S2=Sn−12=A=n−1∑i=1n(xi−x)2
这是一个更好的总体方差估计值。
标准差
σ=σ2=N∑i=1N(xi−μ)2
S=S2
诸方差公式
σ2=N∑i=1N(xi−μ)2=N∑i=1N(xi2−2xiμ+μ2)=N∑i=1Nxi2−2μ∑i=1Nxi+Nμ2=N∑i=1Nxi2−2μ2+μ2=N∑i=1Nxi2−μ2
由于:μ=N∑i=1Nxi
σ2=N∑i=1Nxi2−N(∑i=1Nxi)2
概率相关知识
随机变量
随机变量通常用大写字母表示:X、Y、Z
X实际更像是一个函数,把随机过程映射到一个实数。
与传统的变量不同,随机变量更像是从随机过程映射到数值的函数。
概率密度函数
二项分布
X为6枚硬币投掷中出现正面的个数。
当试验次数趋近于无穷时,概率密度图像趋近于高斯分布。
离散的情况:二项分布
连续的情况:正态分布
Excel实例:

期望值E(X)
随机变量的期望值其实也就是总体的均值,只是此时的总体是无穷尽的,所以无法用全部求和然后除以数目的方式来求均值,但我们知道这些数字的频率。
二项分布的期望:E(x)=np
X为进球的次数。
E(x)=k=0∑nk×CnkPk(1−P)n−k具体的推导过程就不在这呈现啦!
泊松过程
想确定某一小时内100辆车或5辆车通过的概率,最好的方式是先定义一个相关的随机变量:
X=#of cars pass in an hour
两个假设:
1.每分每秒 在车流量方面没有差异
2.一段时期的车流量对其他时期的车流量没有影响
建模:
假设期望值的最好估计值是λ,即E(X)=λ
利用二项分布建模:

不断地进行区间分割。。。
泊松分布来自二项分布n趋向于无穷时得到泊松分布。
泊松分布:
P(X=k)=n→+∞limCnk×(nλ)k(1−nλ)n−k
P(X=k)=k!λke−λ
大数定律
大数定律:n→∞
Xn→E(X)
Xn→μ
样本量足够大的时候,样本均值接近于总体均值
正态分布
P(x)=2πσ1e−21(σx−μ)2