(概率论与数理统计)ch02

随机变量:
假如一个变量在数轴上的取值依赖于随机现象的基本结果,则称此变量为随机变量.
累计概率分布函数(分布函数): $F(x)=P(X\leqslant x)$
可列可加性公理:
$P(\bigcup_{n=1}^{\infty}A_n)=\sum_{n=1}^{\infty}P(A_n)$
二项分布的期望: $X\sim b(n,p)$
$E(X)=\sum_{x=0}^{n}xC_n^xp^x(1-p)^{n-x}=np$
泊松定理:在n重伯努利试验中,以 $p_n$ 表示在一次实验中成功发生的概率.且随着n增大, $p_n$ 在减小.若 $n \rightarrow \infty$ 时, $\lambda_n=np_n \rightarrow \lambda$ , $\lambda>0$ .则出现x次成功的概率为
$C_n^xp^x_n(1-p_n)^{n-x} \rightarrow \frac{\lambda^x}{x!}e^{-\lambda}$
证明:
$\begin{array}{l}\left(\begin{array}{l}n \\ x\end{array}\right) p_{n}^{x}\left(1-p_{n}\right)^{n-x} \\ =\frac{n(n-1) \cdots(n-x+1)}{x !}\left(\frac{\lambda_{n}}{n}\right)^{x}\left(1-\frac{\lambda_{n}}{n}\right)^{n-x} \\ =\frac{\lambda_{n}^{x}}{x !}\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \cdots\left(1-\frac{x-1}{n}\right)\left(1-\frac{\lambda_{n}}{n}\right)^{n-x}\end{array}$
注意,又因为下面的极限成立
$\begin{array}{l}\lim _{n \rightarrow \infty} \lambda_{n}=\lambda \\ \lim _{n \rightarrow \infty}\left(1-\frac{\lambda_{n}}{n}\right)^{n-x}=e^{-\lambda}\end{array}$
所以原式成立.值得注意的是,这个分布和二项分布不同之处在于, $p_n$ 是会变化的.它会取极限.
泊松分布:根据泊松定理可得 $X\sim P(\lambda)$
$\sum_{x=1}^{\infty}\frac{\lambda^x}{x!}e^{-\lambda}=e^{\lambda}\sum_{x=1}^{\infty}\frac{\lambda^x}{x!}=e^{-\lambda}e^{\lambda}=1$
可见泊松定理推出的一个分布公式,实际上是一个概率分布.这个概率分布是一个典型的离散型分布.随机变量取值为所有非负整数.
泊松分布的期望:
$\begin{aligned} E(X) &=\sum_{x=0}^{\infty} x \cdot \frac{\lambda^{x}}{x !} e^{-\lambda} \\ &=\lambda e^{-\lambda} \sum_{x=1}^{\infty} \frac{\lambda^{x-1}}{(x-1) !}=\lambda \end{aligned}$
泊松分布,总与计数过程相关联,并且计数是在一定时间内或一定区域内,或特定单位内的前提下进行的.比如
- 在一定时间内,电话总站接错电话的次数;
- 在一定时间内, 在超市排队等候付款的顾客人数;
- 在一定时间内,来到车站等候公共汽车的人数;
- 在一定时间内, 某操作系统发生故障的次数;
- 在一个稳定的团体内,活到100岁的人数;
- 一匹布上,瑕疵点的个数;
- 100页书上,错别字的个数;
- 一个面包上,葡萄干的个数;
超几何分布:N个产品,其中M个次品.如果进行不放回抽样.那么如果抽n次,拿到次品数量的概率分布. $h(n,N,M)$
$\begin{aligned} P(X=x) &=\frac{\left(\begin{array}{l}M \\ x\end{array}\right)\left(\begin{array}{l}N-M \\ n-x\end{array}\right)}{\left(\begin{array}{l}N \\ n\end{array}\right)} \\ & x=0,1, \cdots, r \end{aligned}$
其中 $r=min(n,M)$ ,其中我们可以看到的是
$\sum_{x=0}^{r}\left(\begin{array}{l}M \\ x\end{array}\right)\left(\begin{array}{c}N-M \\ n-x\end{array}\right)=\left(\begin{array}{l}N \\ n\end{array}\right)$
由此可见 $\sum_{x=0}^{r}P(X=x)=1$
连续随机变量的概率密度函数 $p(x)\geqslant 0$
$\int_{-\infty}^{+\infty}{p(x)dx}=1$
$P(a\leqslant X\leqslant b)=\int_{a}^{b}{p(x)dx}$
均匀分布 $X\sim U(a,b)$
指数分布 $X\sim Exp(\lambda)$

$p(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},x\geqslant 0\\ 0, x<0 \end{aligned} \right.$ 不少产品首次发生故障的时间T服从指数分布.
随机变量的分布函数
$F(x)=P(X\leqslant x)=\int_{-\infty}^{x}{p(x)dx}$
- 均匀分布 $F(x)=\left\{ \begin{aligned} 0&, x<a\\ \frac{x-a}{b-a}&,a\leqslant x\leqslant b\\ 1&,x>b \end{aligned} \right.$
- 指数分布 $F(x)=\left\{ \begin{aligned} 0&, x<0\\ 1-e^{-\lambda x}&,x\geqslant 0 \end{aligned} \right.$
连续随机变量分布函数的一些性质
- $F(x)$ 是连续函数
- $P(X=x)=0$ ,零概率事件和不可能事件 $\varPhi$ ,是有差别的.0️零概率事件不全是不可能事件.同理必然事件的概率为1.但是概率为1的事件不全是必然事件.概率为1的事件实际上是几乎必然发生的事件.
- $\left. \begin{aligned} P(a\leqslant X\leqslant b)&=P(a\leqslant X<b)\\ &=P(a<X\leqslant b)\\ &=P(a<X<b) \end{aligned} \right.$
- $F^{'}(x)=p(x)$
$P(x;p_1(x)=p_2(x))=1$ , 两个函数在概率论中成为几乎处处相等.比如
$p_{1}(x)=\left\{\begin{array}{ll}\frac{1}{b-a}, & a<x \leqslant b \\ 0 & , \text { other }\end{array}\right.$
$p_{2}(x)=\left\{\begin{array}{ll}\frac{1}{b-a}, & a<x<b \\ 0 & \text{other},\end{array}\right.$
已知随即变量X的分布函数 $F_X(x)$ 和密度函数为 $p_X(x)$ ,又设 $Y=g(x)$ ,其中 $g$ 是严格单调的函数.且导数 $g^{'}(\cdot)$ 存在.则 $Y$ 的概率密度函数为
$p_Y(y)=p_X(h(y))|h^{'}(y)|$ $h(y)$ 是
$y=g(x)$ 的反函数, $h^{'}(y)$ 是其导数.
证明:
$\begin{aligned} F_{Y}(y) &=P(Y \leqslant y)=P(g(X) \leqslant y) \\ &=P(X \leqslant h(y))=F_{X}(h(y)) \\ p_{Y}(y) &=p_{X}(h(y)) \cdot h^{\prime}(y) \end{aligned}$
均匀分布的数学期望 $E(x)=\frac{a+b}{2}$
指数分布的期望 $E(X)=\frac{1}{\lambda}$
期望不存在的分布举例.柯西分布
$p(x)=\frac{1}{\pi (1+x^2)},-\infty<x<\infty$ 因为积分,
$\frac{1}{\pi}\int_{-\infty}^{\infty}{\frac{|x|}{1+x^2}dx}$ 无限.
正态分布
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}Exp(-\frac{(x-\mu)^2}{2\sigma^2}), -\infty<x<\infty$
正态分布的例子描述
- 测量误差 $\epsilon$ 可以用正态分布描述.
- 关头自动包装上重量y与标准重量m偏差 $\delta$ 服从正态分布.
- 大批量制造的东西的尺寸和标准尺寸之差服从正态分布.
- 同龄人的身高体重
- 人的收入
- 一个地区降雨量
- 超市出售的鸡蛋重量
正态分布的应用:
- 许多分布可用正态分布做近似.
- 从正态分布中可以导出一些有用的分布. $\chi^2$ 分布, $t$ 分布,以及 $F$ 分布.
正态分布的期望 $E(x)=\mu$
标准正态分布
$\varphi(u)=\frac{1}{\sqrt{2\pi}}Exp(-\frac{u^2}{2}),-\infty<u<\infty.$
$\Phi(u)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{u}{Exp(-\frac{x^2}{2})dx}$
$\Phi(-u)=1-\Phi(u)$
正态分布的线性变换
$X\sim N(\mu,\sigma^2) \rightarrow U=\frac{X-\mu}{\sigma}$
正态分布的计算
$F(a<X<b)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})$
$P(X<b)=\Phi(\frac{b-\mu}{\sigma})$
$P(X>a)=1-\Phi(\frac{a-\mu}{\sigma})$
伽马函数如下所示
$\Gamma(\alpha)=\int_{0}^{\infty}{x^{\alpha-1}e^{-x}dx},\alpha>0$
- $\Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi}$
- $\Gamma(\alpha+1)=\alpha\Gamma(\alpha)$ ,对于自然数有 $\Gamma(n+1)=n!$
- $\int_{0}^{\infty}{x^{\alpha-1}e^{-\lambda x}dx}=\Gamma(\alpha)/\lambda^{\alpha}$
伽马分布的概率密度函数, $X\sim Ga(\alpha,\lambda)$ $p(x)=\left\{ \begin{aligned} &\frac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{\lambda x}&, x>0\\ &0&, x\leqslant 0 \end{aligned} \right.$ 其中 $\alpha>0$ 称为形状参数, $\lambda>0$ 称为尺度函数.
伽马分布的数学期望为 $E(x)=\frac{\alpha}{\lambda}$
$\alpha=1$ 的伽马分布就是指数分布.
指数分布 $X\sim Exp(\lambda)$ 无记忆性 $P(X>s+t|X>s)=P(X>t)$
$\lambda=\frac{1}{2}$ ,
$\alpha=\frac{n}{2}$ 的伽马分布称为自由度为n的 $\chi^2$ 分布. $X\sim \chi^2$
$E(x)=n=\frac{\alpha}{\lambda}$
$p(x)=\frac{1}{\Gamma(\frac{n}{2})2^{n/2}}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},x>0$
贝塔函数
$\beta(a,b)=\int_{0}^{1}{fdx}x^{n-1}(1-x)^{b-1}dx,a>0,b>0$
- $\beta(a,b)=\beta(b,a)$
- $\beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$
贝塔分布的,概率密度函数, $X\sim Be(a,b)$
$p(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1},0\leqslant x\leqslant 1$
其中a,b都是形状参数,且都为正.
- 不合格率,服从它
- 机器维修率
- 打靶命中率
- 市场占有率
也就是说各种比率,的话.它们一般服从beta分布.
beta分布的数学期望 $E(x)=\frac{a}{a+b}$
$a=b=1$ 的beta分布实际上就是 $[0,1]$ 上的均匀分布.
设随机变量X以及其函数g(X)的数学期望都存在.那么 $E[g(X)]=\left\{ \begin{aligned} \sum_ig(x_i)p(x_i)\\ \int_{-\infty}^{\infty}{g(x)p(x)dx} \end{aligned} \right.$
$E[cg(X)]=cE[g(X)]$
$E[g(X)\pm h(X)]=E[g(X)]\pm E[h(X)]$
$E[c]=c$
方差的定义 $Var[X]=E[X-E(X)]^2$ ,标准差 $\sqrt{Var[X]}$
$Var[c]=0$
$Var[aX+b]=a^2Var[X]$
$Var[X]=E(X^2)-E[X]^2$
二项分布 $b(n,p)$ 的方差为 $np(1-p)$
均匀分布的方差为 $(b-a)^2/12$
伽马分布的方差为 $\alpha/\lambda^2$
- $\alpha=1$ , $Y\sim Exp(\lambda),E(Y)=\lambda^{-1},Var[Y]=\lambda^{-2},\sigma[X]=^{-\lambda}$
- $\alpha=\frac{n}{2},\lambda=\frac{1}{2}$ , $Z\sim \chi^2(n)$ ,
  $E[Z]=n,Var[Z]=2n$
切比雪夫不等式
$P(|X-E[X]|\geqslant \epsilon)\leqslant \frac{Var[X]}{\epsilon^2}$
- 这个不等式对于连续或者离散的都成立.
- 这个等式是描述概率曲线两端的和小于某个值.
方差为0的随机斌量X必几乎处处为常数.这个常数就是其期望 $E(X)$ ,这个定理亦可表示为:若 $Var[X]=0,$ 则 $P(X=E[X])=1$
贝努力大数定律:
设 $X_n$ 是n重贝努力试验中事件A发生的次数.又设事件A发生的概率 $P(A)=p$ ,则对任意的 $\epsilon>0$ ,有
$\lim_{n\rightarrow 0}P(|\frac{X_n}{n}-p|\geqslant \epsilon)=0$
这个就是弱大数定理.偏差几乎处处为0,但是不代表就不存在偏差.
矩,c为常数,k为正整数.则 $E(X-c)^k$ 称为X分布关于c的k阶矩.
- $c=0$ ,则 $E[X]^k$ 称为X分布的k阶原点矩.记作 $\mu_k$ ;
- $c=E[X]$ ,则 $E[X-E[X]]^k$ ,称为X分布的k阶中心矩.记为 $\upsilon_k$
- 一阶原点矩就是期望,二阶中心距就是方差.
- 中心距和原点矩之间的关系
  $\upsilon_k=\sum_{i=1}^{k}C_k^i\mu_i(-\mu_1)^{k-i}$
变异系数
$C_{\upsilon}=\frac{\sqrt{\upsilon_2}}{\mu_1}=\frac{\sqrt{Var[X]}}{E[X]}$

变异系数,可以用来衡量从北京到上海的某些测量结果 $E[X]=1464(kilometer), \sigma(X)=500(meter), C_{\upsilon}=0.00034$ ,还有你测量100m的参数, $E[Y]=100m, \sigma[Y]=0.05m, C_{\upsilon}-0.0005$ ,由此可见还是前者更为精确.
偏度
$\beta_1=\frac{\upsilon_3}{(\upsilon_2)^{3/2}}=\frac{E[X-E[X]]^3}{[E[X-EX]^2]^{3/2}}$

正态分布的三阶中心距 $\upsilon_3=0 \rightarrow \beta_1=0$ .
峰度 $\beta_2=\frac{\upsilon_4}{\upsilon_2^2}$
- 实际上 $\beta_2$ 是任一标准化变量与标准化正态分布的四节远点矩之差.
- 峰度刻画的是图像和标准正态分布的图像比.是否更尖或者更平.
- $\beta_2>0$ ,更尖.
- $\beta_2<0$ ,更为平坦.
中位数 $F(x_{0.5})=\int_{-\infty}^{x_{0.5}}{p(x)dx}=0.5$
也就是图像在 $x_{0.5}$ 右边的概率和等于右边的概率和.
- 中位数一定存在,但是期望却不一定.
- 分布对称时,对称中心就是中位数.
分位数
$F(x_{\alpha})=\int_{-\infty}^{x_{\alpha}}{p(x)dx}=\alpha,0<\alpha<1$
下侧分位数
$1-F(x^{'}_{\alpha})=\int_{x^{'}_{\alpha}}^{\infty}{p(x)dx}=\alpha$
众数,离散时,代表发生次数最多的事件.连续时,代表概率曲线的最大值
众数用 $Mod(X)$ 表示.