统计学基础训练营task1

任务1

统计基础概念

样本和总体
一些描述量

总体方差
样本方差
标准差
诸方差公式

概率相关知识

随机变量
概率密度函数

二项分布

期望值E(X)
泊松过程

大数定律
正态分布

统计基础概念

两天的任务是看 可汗学院：统计学 视频复习基础知识。

样本和总体

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

总体：population；
$\mu=\frac{\sum_{i=0}^N x_i }{N}= \frac{x_1+x_2+x_3...+x_N}{N}$
样本：sample；
$\overline{X}=\frac{\sum_{i=0}^n x_i }{n}= \frac{x_1+x_2+x_3...+x_n}{n}$

一些描述量

总体方差

$\sigma^2=\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}$

样本方差

总体方差一般得不到，用样本方差估计总体方差。
$S^2=\frac{\sum_{i=1}^n( x_i-\overline{x})^2}{n}$
上式经常低估总体方差，于是引入无偏估计：
$S^2=S_{n-1}^2=A=\frac{\sum_{i=1}^n( x_i-\overline{x})^2}{n-1}$
这是一个更好的总体方差估计值。

标准差

$\sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}}$
$S=\sqrt{S^2}$

诸方差公式

$\sigma^2=\frac{\sum_{i=1}^N( x_i-\mu)^2}{N}=\frac{\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)}{N}=\frac{\sum_{i=1}^Nx_i^2-2\mu\sum_{i=1}^Nx_i+N\mu^2}{N}=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu^2+\mu^2=\frac{\sum_{i=1}^Nx_i^2}{N}-\mu^2$
由于： $\mu =\frac{\sum_{i=1}^Nx_i}{N}$
$\sigma^2 =\frac{\sum_{i=1}^Nx_i^2}{N}-\frac{(\sum_{i=1}^Nx_i)^2}{N}$

概率相关知识

随机变量

随机变量通常用大写字母表示：X、Y、Z
X实际更像是一个函数，把随机过程映射到一个实数。
与传统的变量不同，随机变量更像是从随机过程映射到数值的函数。

概率密度函数

二项分布

X为6枚硬币投掷中出现正面的个数。
当试验次数趋近于无穷时，概率密度图像趋近于高斯分布。
离散的情况：二项分布
连续的情况：正态分布
Excel实例：
统计学基础训练营task1

期望值E(X)

随机变量的期望值其实也就是总体的均值，只是此时的总体是无穷尽的，所以无法用全部求和然后除以数目的方式来求均值，但我们知道这些数字的频率。

二项分布的期望： $E(x)=np$
X为进球的次数。
$E(x)=\sum_{k=0}^nk\times C_n^kP^k(1-P)^{n-k}$ 具体的推导过程就不在这呈现啦！

泊松过程

想确定某一小时内100辆车或5辆车通过的概率，最好的方式是先定义一个相关的随机变量：
X=#of cars pass in an hour
两个假设：
1.每分每秒在车流量方面没有差异
2.一段时期的车流量对其他时期的车流量没有影响
建模：
假设期望值的最好估计值是 $\lambda$ ,即 $E(X)=\lambda$
利用二项分布建模：
统计学基础训练营task1
不断地进行区间分割。。。
泊松分布来自二项分布n趋向于无穷时得到泊松分布。
泊松分布：
$P(X=k)=\lim_{n\to+\infty}C_n^k\times(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$
$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$

大数定律

大数定律： $n\to\infty$
$\overline{X_n}\to E(X)$

$\overline{X_n}\to \mu$
样本量足够大的时候，样本均值接近于总体均值

正态分布

$P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$