正态分布中的半正定矩阵(协方差矩阵)

1.什么是正定矩阵和半正定矩阵

我们学习半正定矩阵前,得先了解,正定矩阵与半正定矩阵的关系以及什么是正定矩阵。这里先学习什么是二次型。

首先给出二次型的定义
定义1:设P为数域,aijP,i,j=1,2,,na_ij∈P,i,j=1,2,…,n,n个数字x_1,x_2…,x_n的二次齐次多项式。
正态分布中的半正定矩阵(协方差矩阵)

称为数域P上的一个n元二次型
而这个式子可进一步可写成:
正态分布中的半正定矩阵(协方差矩阵)
由于约定二次型中
正态分布中的半正定矩阵(协方差矩阵)
,可知xixj=xjxix_i x_j=x_j x_i,有
正态分布中的半正定矩阵(协方差矩阵)
由于笔者数学基础差,在此记录一下转化过程
正态分布中的半正定矩阵(协方差矩阵)
将上式子的系数a排列成一个n×n矩阵
正态分布中的半正定矩阵(协方差矩阵)
这个矩阵就称为二次型的矩阵,由于上面我们所约定aij=aji,i,j=1,2,,na_ij=a_ji,i,j=1,2,…,n,由此可知A=AA'=A

意思是:转置矩阵=原矩阵
这种转置矩阵和原矩阵相等的矩阵称为对称矩阵,即二次型矩阵都是对称矩阵。

这个式子可以进一步化成以下形式:
原式为:
正态分布中的半正定矩阵(协方差矩阵)
把x提出来
正态分布中的半正定矩阵(协方差矩阵)
再次转化成矩阵形式正态分布中的半正定矩阵(协方差矩阵)
再把矩阵中x提取出来得到
正态分布中的半正定矩阵(协方差矩阵)
其中
正态分布中的半正定矩阵(协方差矩阵)
我们称 f(x)=X’AX 为二次型的矩形形式,其中实对称矩阵A称为该二次型的矩阵。
二次型f称为实对称矩阵A的二次型。实对称矩阵A的秩称为:二次型的秩。于是,二次型f与其实对称矩阵A之间有一一对应关系。

xRn????0{XTAX>0(1)XTAX0(2) ∀x∈R^n且????≠0\left\{ \begin{aligned} X^T AX>0 (1) \\ X^T AX≥0 (2) \\ \end{aligned} \right.
其中(1)式成立,则称为正定矩阵,(2)式成立则称为半正定矩阵。

其中x^T Ax为二次型的矩形形式。

举一个简单的例子:
(1)假设
A=[1001],x=[x1x2] A=\left[ \begin{matrix} 1 & 0 \\0 & 1 \\ \end{matrix} \right], x=\left[ \begin{matrix} x_1 \\x_2\\ \end{matrix}\right]

XTAX=x12+x12>0X^T AX=x_1^2+x_1^2>0。满足这一条件称为正定矩阵。

(2)假设

A=[1111],x=[x1x2] A=\left[ \begin{matrix} 1 & 1 \\1 & 1 \\ \end{matrix} \right], x=\left[ \begin{matrix} x_1 \\x_2\\ \end{matrix}\right]
XTAX=x12+x12+2x1x2=(x1+x2)20X^T AX=x_1^2+x_1^2+2x_1 x_2=(x_1+x_2 )^2≥0。满足这一条件称为半正定矩阵。

2.正定矩阵和半正定矩阵意义

在一维中,二次函数表达形式为
y=ax2+bx+cy=ax^2+bx+c,
a>0a>0时,开口向上,凸函数,存在最低点。当a<0a<0时,开口向下,凹函数,存在最高点。
输入:x 单元(一维下的值)
输出:y 单值(一维下的值)

在多维中,二次函数的输入x数为矩阵形式,例如:
输入:A=[x1x2xnm],A=\left[ \begin{matrix} x_1 \\x_2 \\\vdots\\x_n \end{matrix}m \right],多元(多位下的矩阵)
输出:y 单值(一维下的值)

这里我们可以得到一个结论,
假设A矩阵为正定矩阵且对称,则所有特征值≥0;

个人总结推导:
AA矩阵为正定时,xRn∀x∈R^nx0,XTAX>0x≠0,X^T AX>0
AA矩阵为对称时,AT=AA^T=A,且必有正交矩阵PTAP=P^T AP=∧,其中是以AAnn个特征值为对角元素的对角矩阵。对应于不同特征值的特征向量正交,故这nn个单位特征向量两两正交。以它们为列向量构成正交矩阵P,则可得到:PTAP=PTP=P^T AP=P^T∧P=∧
即可得:A=PTPA=P^T∧P

A=PTPXTAX>0A=P^T∧P代入X^T AX>0,可得:XTPTPX>0X^T P^T∧PX>0
假设y=PTX,yT=PXT,PTy=P^T X,y^T=PX^T, P^T为一个可逆的n×n矩阵。则XTPPTX>0X^T P∧P^T X>0可化为yTy>0y^T∧y>0
因为
=[λ100λ1]∧=\left[ \begin{matrix} λ_1 & \cdots&0 \\ \vdots & \ddots &\vdots \\0&\cdots&λ_1 \end{matrix} \right]

yTy=λ1y12+λ2y22++λnyn2>0y^T∧y=λ_1 y_1^2+λ_2 y_2^2+⋯+λ_n y_n^2>0,可得到当取任取yi=1y_i=1,其他元素都为0时,可得到λi>0λ_i>0

个人理解:对于x0x≠0,其yTy>0y^T∧y>0的情况下,yTy^Tyy都不等于0。且yTy^Tyy相乘都为正,所以的值应大于0,即所有的λiλ_i>0。

同理可推出半正定矩阵中的特征值。
假设AA矩阵为半正定矩阵,则所有特征值≥0;

3.半正定矩阵

上面已经介绍了半正定矩阵,下面证明协方差矩阵是半正定矩阵。
首先先理解什么是协方差矩阵
Y=[(y1,y2,y3,,yn)]TY=[(y_1,y_2,y_3,…,y_n)]^Tnn维随机变量,称矩阵为

正态分布中的半正定矩阵(协方差矩阵)
要证明为半正定矩阵,需要证明对于任意Y=[(y1,y2,y3,,yn)]TY=[(y_1,y_2,y_3,…,y_n)]^Tnn维随机变量,有YTY0Y^T∑Y≥0

先计算Y^T∑部分
正态分布中的半正定矩阵(协方差矩阵)
正态分布中的半正定矩阵(协方差矩阵)
在把XX加进去,计算YTYY^T∑Y部分正态分布中的半正定矩阵(协方差矩阵)
假设
正态分布中的半正定矩阵(协方差矩阵)
由此我们可以得到:YTY=E(W2)>0Y^T∑Y=E(W^2)>0

所以我们可以理解了在概率机器人中多元正太分布的密度函数:
正态分布中的半正定矩阵(协方差矩阵)
其中,μ数均值矢量,∑是一个半正定矩阵也称协方差矩阵。

相关文章: