正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始。

考虑积分

I=12πexp(z22)dz(1)

这个积分是存在的,因为积分项是正的连续函数,它小于一个积分函数即

0<exp(z22)<exp(|z|+1), <z<


exp(|z|+1)dz=2e

为了计算I,注意到I>0I2可以写成

I2=12πexp(z2+w22)dzdw

通过极坐标变换可以求出该积分。如果令z=rcosθ,w=rsinθ,那么我们有

I2=12π2π00er2/2rdrdθ=12π2π0dθ=1

因为(1)R上是正的且R上积分为1,所以它是R上连续型随机变量的pdf,我们用Z表示随机变量,那么Z的pdf为

f(z)=12πexp(z22), <z<(2)

对于tRZ的mgf推导如下:

E[exp{tZ}]=exp{tz}12πexp{12z2}dz=exp{12t2}12πexp{12(zt)2}dz=exp{12t2}12πexp{12w2}dw(3)

其中对于最后一步积分,我们进行了一对一的变量代换w=zt,根据(2)可知,表达式(3)的值为1,因此Z的mgf为:

MZ(t)=exp{12t2}, <t<(4)

MZ(t)的前二阶导如下:

MZ(t)=texp{12t2}MZ(t)=exp{12t2}+t2exp{12t2}

t=0代入得到Z的均值与方差为

E(Z)=0,var(Z)=1(5)

接下来定义连续随机变量X

X=bZ+a

其中b>0,这是一对一变换,为了求出X的pdf,注意到变换的逆与雅可比为:z=b1(xa),J=b1。因为b>0,所以由(2)可得X的pdf为

fX(x)=12πbexp{12(xab)2}, <x<

(5)可得出E(X)=a,var(X)=b2,因此在X的pdf表达式中,我们可以用μ=E(X),σ2=var(X)代替a,b,正式的形式如下定理所示。

1对于随机变量X,如果它的pdf为

f(x)=12πσexp{12(xμσ)2}, <x<(6)

参数μ,σ2分别是X的均值与方差,我们常写成X满足N(μ,σ2)分布。

利用上面的符号,(2)中的随机变量Z满足N(0,1)分布,我们称Z是标准正态随机变量。

对于X的mgf,根据关系X=σZ+μ以及Z的mgf可得:

E[exp{tX}]=E[exp{t(σZ+μ)}]=exp{μt}E[exp{tσZ}]=exp{μt}exp{12σ2t2}=exp{μt+12σ2t2}(7)

其中<t<

总结一下就是:

Z=XμσN(0,1)XN(μ,σ2)(8)

1如果X的mgf为

M(t)=e2t+32t2

那么X满足μ=2,σ2=64的正态分布,进一步,随机变量Z=X28满足N(0,1)分布。

2之前我们用标准正态随机变量的矩生成函数推导出它的各阶矩,现在利用这个结论推导出满足N(0,1)分布的随机变量X的各阶矩。同上面一样,我们可以写成X=σZ+μ,其中Z满足N(0,1)分布,因此对于所有非负整数k,利用二项定理可得

E(Xk)=E[(σZ+μ)k]=j=0k(kj)σjE(Zj)μkj(9)

之前给出了Z的奇数矩为0,偶数矩由确定的表达式,将其代入(9)中即可推导出X的矩。

正态pdf(6)的图像如图1所示,有以下几个性质:(1)关于x=μ对称;(2)x=μ处有最大值1/(σ2π)(3)x轴是其渐近线;(4)x=μ±σ处为拐点。

文章开头提到,许多实际应用设计到正态分布,特别的,我们很想计算与其有关的概率。然而正态分布的pdf包含exps2这些项,因此无法以封闭的形式得到它们的反导,必须使用数值积分方法。因为标准正态分布与正态分布之间的关系(8),我们只需要计算标准正态分布的概率即可,为此我们将标准正态随机变量Z的cdf表示为

Φ(z)=z12πexp{w22}dw0(1)

X满足N(μ,σ2)分布,假设我们想计算某个特定xFX(x)=P(Xx),对于Z=(Xμ)/σ,表达式(8)说明

FX(x)=P(Xx)=P(Zxμσ)=Φ(xμσ)

因此我们只需要Φ(z)的数值积分值,正态值通过Z的值就能计算出来了。例如,对于特定的p,我们想计算xp使得p=FX(xp),取zp=Φ1(p),那么根据(8)可得xp=σzp+μ


漫步数理统计二十五——正态分布
图1

2为标准正态密度,从左到zp的密度函数下面区域面积为p;即Φ(zp)=p

3X满足N(2,25),那么通过查表可得

P(0<X<10)=Φ(1025)Φ(025)=Φ(1.6)Φ(0.4)=0.945(10.655)=0.600


P(8<X<1)=Φ(125)Φ(825)=Φ(0.2)Φ(2)=(10.579)(10.977)=0.398


漫步数理统计二十五——正态分布
图2

4假设X满足N(μ,σ2)分布,那么查表可得

P(μ2σ<X<μ+2σ)=Φ(μ+2σμσ)Φ(μ2σμσ)=Φ(2)Φ(2)=0.977(10.977)=0.954

5假设某正态分布N(μ,σ2)小于60的概率为百分之十,大于90的概率为百分之五,那么μ,σ的值是多少?给定随机变量X满足N(μ,σ2)P(X60)=0.10,P(X90)=0.95,所以Φ[(60μ)/σ]=0.10,Φ[(90μ)/σ]=0.95,查表可得

60μσ=1.282,90μσ=1.645

由此可得μ=73.1,σ=10.2

1之后我们会常遇到与分布相关的三个参数,N(μ,σ2)中的均值μ称为位置参数,因为改变这个值只是简单的改变了正态pdf中间的位置;即pdf的图像与原来是一样的,除了位置移动了以外。N(μ,σ2)的标准差σ称为尺度参数,因为小的σ需要正态pdf又高又窄,而大的σ需要正态pdf又低又宽,然而不论μ,σ是什么值,正态pdf的图像都与钟类似,顺带提一下,伽玛分布的参数β也称为尺度参数,α称为形状参数,因为改变值后其形状发生了变化。二项与泊松分布的p,μ也都是形状参数。

最后介绍两个重要的定理。

1如果随机变量X满足N(μ,σ2),σ2>0,那么随机变量V=(Xμ)2/σ2满足χ2(1)分布。

因为V=W2,其中W=(Xμ)/σ满足N(0,1),所以对v0G(v)的cdf为

G(v)=P(W2v)=P(vWv)


G(v)=2v012πew2/2dw,0v


G(v)=0,v<0

进行变量代换w=y,那么

G(v)=v012πyey/2dy,0v

因此连续型随机变量V的pdfg(v)=G(v)

g(v)=1π2v1/21ev/2, 0<v<=0 elsewhere

因为Γ(12)=π,所以Vχ2(1)||

另一个重要的定理就是独立情况下的加性。

2X1,,Xn是独立的随机变量,使得Xi满足N(μi,σ2i)分布。令Y=Σni=1aiXi,其中a1,,an是常数,那么Y的分布为N(Σni=1aiμi,Σni=1a2iσ2i)

利用独立性与正态分布的mgf,对于tRY的mgf为

MY(t)=E[exptY]=E[exp{i=1ntaiXi}]=i=1nE[exp{taiXi}]=i=1nexp{taiμi+(1/2)t2a2iσ2i}=exp{ti=1naiμi+(1/2)t2i=1na2iσ2i}

这就是N(Σni=1aiμi,Σni=1a2iσ2i)分布的mgf。||

该结论一个简单的推论为X¯=n1Σni=1Xi的分布,其中X1,X2,,Xn为独立同分布的随机变量。

1X1,,Xn是独立同分布N(μ,σ2)的随机变量,令X¯=n1Σni=1Xi,那么X¯满足N(μ,σ2/n)分布。

为了证明这个推论,只需要取ai=(1/n),μi=μ,σ2i=σ2,其中i=1,2,,n,然后利用定理2即可。

相关文章: