正态分布中的半正定矩阵(协方差矩阵)
1.什么是正定矩阵和半正定矩阵
我们学习半正定矩阵前,得先了解,正定矩阵与半正定矩阵的关系以及什么是正定矩阵。这里先学习什么是二次型。
首先给出二次型的定义
定义1:设P为数域,aij∈P,i,j=1,2,…,n,n个数字x_1,x_2…,x_n的二次齐次多项式。

称为数域P上的一个n元二次型
而这个式子可进一步可写成:

由于约定二次型中

,可知xixj=xjxi,有

由于笔者数学基础差,在此记录一下转化过程

将上式子的系数a排列成一个n×n矩阵

这个矩阵就称为二次型的矩阵,由于上面我们所约定aij=aji,i,j=1,2,…,n,由此可知A′=A。
意思是:转置矩阵=原矩阵
这种转置矩阵和原矩阵相等的矩阵称为对称矩阵,即二次型矩阵都是对称矩阵。
这个式子可以进一步化成以下形式:
原式为:

把x提出来

再次转化成矩阵形式
再把矩阵中x提取出来得到

其中

我们称 f(x)=X’AX 为二次型的矩形形式,其中实对称矩阵A称为该二次型的矩阵。
二次型f称为实对称矩阵A的二次型。实对称矩阵A的秩称为:二次型的秩。于是,二次型f与其实对称矩阵A之间有一一对应关系。
∀x∈Rn且x=0{XTAX>0(1)XTAX≥0(2)
其中(1)式成立,则称为正定矩阵,(2)式成立则称为半正定矩阵。
其中x^T Ax为二次型的矩形形式。
举一个简单的例子:
(1)假设
A=[1001],x=[x1x2]
则XTAX=x12+x12>0。满足这一条件称为正定矩阵。
(2)假设
A=[1111],x=[x1x2]
则XTAX=x12+x12+2x1x2=(x1+x2)2≥0。满足这一条件称为半正定矩阵。
2.正定矩阵和半正定矩阵意义
在一维中,二次函数表达形式为
y=ax2+bx+c,
当a>0时,开口向上,凸函数,存在最低点。当a<0时,开口向下,凹函数,存在最高点。
输入:x 单元(一维下的值)
输出:y 单值(一维下的值)
在多维中,二次函数的输入x数为矩阵形式,例如:
输入:A=⎣⎢⎢⎢⎡x1x2⋮xnm⎦⎥⎥⎥⎤,多元(多位下的矩阵)
输出:y 单值(一维下的值)
这里我们可以得到一个结论,
假设A矩阵为正定矩阵且对称,则所有特征值≥0;
个人总结推导:
当A矩阵为正定时,∀x∈Rn且x=0,XTAX>0 。
当A矩阵为对称时,AT=A,且必有正交矩阵PTAP=∧,其中∧是以A的n个特征值为对角元素的对角矩阵。对应于不同特征值的特征向量正交,故这n个单位特征向量两两正交。以它们为列向量构成正交矩阵P,则可得到:PTAP=PT∧P=∧
即可得:A=PT∧P。
将A=PT∧P代入XTAX>0,可得:XTPT∧PX>0。
假设y=PTX,yT=PXT,PT为一个可逆的n×n矩阵。则XTP∧PTX>0可化为yT∧y>0。
因为
∧=⎣⎢⎡λ1⋮0⋯⋱⋯0⋮λ1⎦⎥⎤
yT∧y=λ1y12+λ2y22+⋯+λnyn2>0,可得到当取任取yi=1,其他元素都为0时,可得到λi>0。
个人理解:对于x=0,其yT∧y>0的情况下,yT和y都不等于0。且yT和y相乘都为正,所以∧的值应大于0,即所有的λi>0。
同理可推出半正定矩阵中的特征值。
假设A矩阵为半正定矩阵,则所有特征值≥0;
3.半正定矩阵
上面已经介绍了半正定矩阵,下面证明协方差矩阵是半正定矩阵。
首先先理解什么是协方差矩阵
设Y=[(y1,y2,y3,…,yn)]T为n维随机变量,称矩阵为

要证明∑为半正定矩阵,需要证明对于任意Y=[(y1,y2,y3,…,yn)]T为n维随机变量,有YT∑Y≥0。
先计算Y^T∑部分


在把X加进去,计算YT∑Y部分
假设

由此我们可以得到:YT∑Y=E(W2)>0
所以我们可以理解了在概率机器人中多元正太分布的密度函数:

其中,μ数均值矢量,∑是一个半正定矩阵也称协方差矩阵。