统计基础概念

两天的任务是看 可汗学院:统计学 视频复习基础知识。

样本和总体

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 总体 :population;
    μ=i=0NxiN=x1+x2+x3...+xNN\mu=\frac{\sum_{i=0}^N x_i }{N}= \frac{x_1+x_2+x_3...+x_N}{N}
  2. 样本:sample;
    X=i=0nxin=x1+x2+x3...+xnn\overline{X}=\frac{\sum_{i=0}^n x_i }{n}= \frac{x_1+x_2+x_3...+x_n}{n}

一些描述量

总体方差

σ2=i=1N(xiμ)2N\sigma^2=\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}

样本方差

总体方差一般得不到,用样本方差估计总体方差。
S2=i=1n(xix)2nS^2=\frac{\sum_{i=1}^n( x_i-\overline{x})^2}{n}
上式经常低估总体方差,于是引入无偏估计:
S2=Sn12=A=i=1n(xix)2n1S^2=S_{n-1}^2=A=\frac{\sum_{i=1}^n( x_i-\overline{x})^2}{n-1}
这是一个更好的总体方差估计值。

标准差

σ=σ2=i=1N(xiμ)2N\sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}}
S=S2S=\sqrt{S^2}

诸方差公式

σ2=i=1N(xiμ)2N=i=1N(xi22xiμ+μ2)N=i=1Nxi22μi=1Nxi+Nμ2N=i=1Nxi2N2μ2+μ2=i=1Nxi2Nμ2\sigma^2=\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}=\frac{\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)}{N}=\frac{\sum_{i=1}^Nx_i^2-2\mu\sum_{i=1}^Nx_i+N\mu^2}{N}=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu^2+\mu^2=\frac{\sum_{i=1}^Nx_i^2}{N}-\mu^2
由于:μ=i=1NxiN\mu =\frac{\sum_{i=1}^Nx_i}{N}
σ2=i=1Nxi2N(i=1Nxi)2N\sigma^2 =\frac{\sum_{i=1}^Nx_i^2}{N}-\frac{(\sum_{i=1}^Nx_i)^2}{N}

概率相关知识

随机变量

随机变量通常用大写字母表示:X、Y、Z
X实际更像是一个函数,把随机过程映射到一个实数。
与传统的变量不同,随机变量更像是从随机过程映射到数值的函数。

概率密度函数

二项分布

X为6枚硬币投掷中出现正面的个数。
当试验次数趋近于无穷时,概率密度图像趋近于高斯分布。
离散的情况:二项分布
连续的情况:正态分布
Excel实例:
统计学基础训练营task1

期望值E(X)

随机变量的期望值其实也就是总体的均值,只是此时的总体是无穷尽的,所以无法用全部求和然后除以数目的方式来求均值,但我们知道这些数字的频率。

二项分布的期望E(x)=npE(x)=np
X为进球的次数。
E(x)=k=0nk×CnkPk(1P)nkE(x)=\sum_{k=0}^nk\times C_n^kP^k(1-P)^{n-k}具体的推导过程就不在这呈现啦!

泊松过程

想确定某一小时内100辆车或5辆车通过的概率,最好的方式是先定义一个相关的随机变量:
X=#of cars pass in an hour
两个假设:
1.每分每秒 在车流量方面没有差异
2.一段时期的车流量对其他时期的车流量没有影响
建模
假设期望值的最好估计值是λ\lambda,即E(X)=λE(X)=\lambda
利用二项分布建模:
统计学基础训练营task1
不断地进行区间分割。。。
泊松分布来自二项分布n趋向于无穷时得到泊松分布。
泊松分布:
P(X=k)=limn+Cnk×(λn)k(1λn)nkP(X=k)=\lim_{n\to+\infty}C_n^k\times(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}
P(X=k)=λkk!eλP(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}

大数定律

大数定律nn\to\infty
XnE(X)\overline{X_n}\to E(X)

Xnμ\overline{X_n}\to \mu
样本量足够大的时候,样本均值接近于总体均值

正态分布

P(x)=12πσe12(xμσ)2P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}

相关文章: