MLAPP 第四章高斯模型

第四章高斯模型

4.1 介绍

本章主要开始介绍多变量的高斯模型或者叫做多变量的正态模型(MVN)，在整本书中，可以说这个模型是非常常见的。这一章的数学的要求是比较高的，涉及到很多的线性代数和矩阵运算。我会尽量把我会的一些计算过程详细的写出来，因为书中有些计算过程可能作者看上去比较的简单，但是我们看的时候还是会比较吃力。

4.1.1 符号

符号这里就不翻译了。都是很常规的，与平时见到的都一样。

4.1.2 基础

多元高斯分布的pdf： MLAPP 第四章高斯模型，指数上的那一块，我们称之为和之间的马氏距离（Mahalanobis distance）。没有中间的，那就是欧式距离，欧式距离带来的一定的缺点就是它认为所有的维度之间是等同的，但是处理实际问题的时候，权重往往应该是有区别的。为了更好地理解这个马氏距离，因为协方差矩阵是实对角阵，进行特征值分解： MLAPP 第四章高斯模型，其中是单位正交阵，即。，所以我们有，这就是协方差矩阵逆的另一种表达形式。其中，其实就是在这个方向上的投影。就是这个方向上的系数，当然也可以理解为我上面说的权重。如果很大的话，说明在这个方向上，你改变很大，但是对最终概率的影响却很小。

4.1.3 MVN的最大似然估计

在一维的高斯分布中，我们有最大似然估计 MLAPP 第四章高斯模型和。对于高维的高斯分布，，，不得不说形式上一样，下面我们来仔细看一下书中的证明。

4.1.3.1 证明*

在证明之前首先给出一些结论

MLAPP 第四章高斯模型

这些都是线性代数相关知识，这个的证明就不详细说了，直接当作结论。

首先我们的似然函数可以写成： MLAPP 第四章高斯模型这个式子最后应该加一个const（常数项），当然对于MLE求解没有影响。我们先对一项进行求导。，其中，这就是利用了上面的公式2以及链式法则。然后我们用似然函数对进行求导：，中间利用了是对称的，我们就得到了 MLAPP 第四章高斯模型的最大似然估计值。接下来对进行求导，首先，其中。这边用了trace的技巧，首先标量的trace等于本身，其次trace具有轮换性。所以在此利用上面的第三行和第四行的公式，得到：，又有，所以。由于参数是要同时进行估计的，所以这里的 MLAPP 第四章高斯模型就用最大似然得到的代替。

4.1.4 高斯分布的最大熵的推导

之前我们提到过，高斯分布是在均值和方差已知的情况下的最大熵分布。为了简化这个符号，pdf写作： MLAPP 第四章高斯模型，也就是0均值的。

定理4.1.2 假设 MLAPP 第四章高斯模型是任意一个均值为0，方差满足（根据均值为0得到的）的分布。，那么有h(q)<h(p)。

证明过程：

MLAPP 第四章高斯模型

这个证明过程就是*这边很难理解，其余都很显然。这个地方首先p（x）是服从高斯分布的。你把 MLAPP 第四章高斯模型取log带进去，常数项忽略掉，我们发现他就是一个关于的二次项。同时我们又有，以及，所以和关于二次项的求导是一样的。所以我们可以换。所以就证明好了。

4.2 高斯判别分析(GDA)

MVN很大的一个应用就是在生成分类器中，定义类条件概率密度函数是高斯的： MLAPP 第四章高斯模型。这里两个说明点，一虽然叫高斯判别分析，但是其实是一个生成模型。第二点跟之前朴素贝叶斯不同的是这里的条件概率密度函数不是关于的每一个分量独立的，除非是对角阵。高斯判别分析我们在英文上又叫做 Gaussian discriminant analysis(GDA)

那么我们最终做决策根据公式： MLAPP 第四章高斯模型，其中最后一项我觉得写成更直观。这个就是根据贝叶斯法则，通过类先验和类条件概率密度函数，得到y的后验概率密度函数（差一个常数项），通过最大后验，得到y的估计值，最终进行分类。

当你把条件概率密度函数是MVS带入上面公式，其实就是看你 MLAPP 第四章高斯模型和之间的马氏距离（协方差矩阵也都是不一样的）。如果我们的类先验就是均匀分布的。那么。

4.2.1 二次判别分析(QDA)

高斯判别分析也有很多种分法，这主要依赖于协方差矩阵的形式，对于最一般的情况，我们叫做二次判别分析（quadrctic discriminant analysis, QDA）。这个的关于y的后验分布写成：

MLAPP 第四章高斯模型，其实就是把类条件概率分布和先验具体形式带到2.13里面，约掉了常数项。

4.2.2 线性判别分析（LDA）

线性的判别分析要求所有的类条件概率分布的协方差矩阵是一样的： MLAPP 第四章高斯模型。这样的话4.2.1里面的公式就可以化简了，这里先不考虑下面的常数项，，这个推导比较简单。第二行的右边一项跟c是没有关系的，所以也必然可以约掉，所以其实如果我们假设那么就有，我们定义，而其实就是个softmax函数，即 MLAPP 第四章高斯模型。

书中解释了为什么叫这个为soft-max函数，假设对于每一个 MLAPP 第四章高斯模型除以一个常量T(temperature，所以这个就是从统计物理里面引入的)。当T趋向于0时。那么有。解释一下：

MLAPP 第四章高斯模型

这里对于书上4.38而言，取log的话，分子变成线性的，那么在做决策边界也就是两个类别的类后验概率相等，也就等价于：

MLAPP 第四章高斯模型，因为分母是可以不考虑的。那么其实这个决策边界是一个线性函数。所以这也是我们为什么叫他为线性判决分析。这一点我们联想一线前面的二次判别分析，那个关于分母取等式的话其实是关于的一个二次式。

4.2.3 只有两个类别情况下的LDA

下面要说的就是y只能取｛0，1｝。根据上面的推导：

MLAPP 第四章高斯模型

另一个就是1减去它。

根据之前的定义，得到 MLAPP 第四章高斯模型，再进行如下的定义：

MLAPP 第四章高斯模型，就可以得到一个比较简单的形式：。这个形式就跟逻辑回归很像。这一块可能主要就是说明二维的LDA其实和逻辑回归是有很大的相似性的。

如果说 MLAPP 第四章高斯模型，那么的方向就是，所以如下图：

MLAPP 第四章高斯模型

就是看你 MLAPP 第四章高斯模型跟的夹角是大于90度还是小于90度，就决定了你是哪一类，图中明显就是y=1。另外当没有先验信息时，，先验就是用来移动的位置，比如说越大，就说明更靠近。也就意味这被判到1类的概率就更高。

4.2.4 判别分析的MLE

之前我们讲的都是怎么去做判别，就是建立在类先验和类条件概率密度函数已知，然后不同的模型去做判别分析，那么怎么进行概率分布的参数估计。这里讲用最大似然估计怎么做。

首先对于数据集合来说， MLAPP 第四章高斯模型，而类先验和类条件概率密度函数的形式我们都是知道的。那么根据数据我们就可以有似然函数，当然我们取一个log：。那么最终求导就可以得到：

MLAPP 第四章高斯模型。

4.2.5 防止过拟合的技巧和方法

MLE的优势在于简单，并且快。劣势就在于在高维的时候可能出现严重的过拟合。比如你的 MLAPP 第四章高斯模型，那么通过MLE估出来的协方差矩阵就是奇异的。即使的情况下，也有可能就是病态的，条件数很大，这时候就接近于奇异的。

1：对于每一个类别使用对角的协方差矩阵，这意味着特征是条件独立的，这就和朴素贝叶斯分类器一样。

2：对于所有的类别，协方差矩阵都是一样的，这就是LDA的情况。

3：每一个类别使用对角的且相同的协方差矩阵。

4：增加先验 5：MAP 6：降低维度

整体对于这一块的把握我也不是很清楚，但是我觉得整体上就是要么作出假设简化，减少未知参数的个数或者通过增加先验来减少过拟合的影响。

4.2.6 正则化的LDA*（这一块有点看不懂）

怎么做，首先得到了协方差矩阵的最大似然估计值 MLAPP 第四章高斯模型，然后我们使用作为先验，这个分布后面会讲到，然后根据前面的似然，我们会得到最大后验估计：，这里的是由参数控制的。这个就叫做正则化的判别分析（regularized discriminant analysis, RDA）

如果我们要计算类条件概率分布，那么我们就需要 MLAPP 第四章高斯模型，因此就要计算（这一点我太能够理解，但是有一个公式，我觉得他是认为用这个公式求，但是涉及到，所以不好求，下面他通过维度的压缩，降低协方差矩阵的维度，这样求得的协方差矩阵就是可逆的），但是如果D>N，那么是MLE估计出来的是奇异的，那么逆就不存在。不过可以通过对 MLAPP 第四章高斯模型的奇异值分解来避免这个运算（仅针对LDA）

令 MLAPP 第四章高斯模型，是的，是的。令，。

根据公式4.7，有：

MLAPP 第四章高斯模型

这个推导过程很简单明了。那么我们有 MLAPP 第四章高斯模型，这里就要求。这里我觉得他就是经验上这么做，其实就是不等的。

实际上根据4.38我们进行分类需要计算的是 MLAPP 第四章高斯模型，其中，，那么这里对于的计算是要协方差矩阵的逆。但是直接对MAP求逆的话，实际上如果不做上面的变换，那么我们通过如下经验的方法求：

MLAPP 第四章高斯模型。关于这一段我要说明一些自己的看法，但不一定对，希望有人给出解答。

MLAPP 第四章高斯模型

4.2.7 对角线的 LDA

这个模型下不仅仅要求协方差矩阵要相等，同时还要求要是对角线的。因为是对角线的，所以对于RDA来说，其实就是 MLAPP 第四章高斯模型。所以判别函数就可以化简写作：（直接带进去就可以了）。我们令，，其中

MLAPP 第四章高斯模型，除以N-C而不是除以N，因为这样才是无偏估计。在高维的背景下，这个模型比LDA和RDA作用更好。

4.2.8 最近的缩小的质心分类器（Nearest shrunken centroids classifier）*不会翻译233

就是说，很多时候我们希望，我们不要每次都用所有的特征，特别在高维度的时候，我们希望的方法是只跟特征的一部分有关。那这个其实就涉及到特征的选取。这边它是利用sparsity-promoting prior这个先验，这会在13.3中才讨论。这样我们会得到 MLAPP 第四章高斯模型，与分类无关，然后就是一个与先验有关的偏差项。我们会加一个这样的先验去鼓励这些偏差项严格为0。这样最终他确实估出来为0，那么这个特征就可以扔掉。具体细节书上没说，等后面看到再说，这里先大概根据书翻译一下。

4.3 联合高斯分布推理

这一块就是讲，给你你一联合分布 MLAPP 第四章高斯模型，你怎么去计算边缘分布以及条件分布。后面给了一些例子。计算复杂度在这里是，到第20章的时候会给出更快的计算方法。

4.3.1 一些结论的陈述

定理4.3.1 假设 MLAPP 第四章高斯模型是服从联合高斯分布，且参数如下：

MLAPP 第四章高斯模型

那么边缘分布长这样： MLAPP 第四章高斯模型

条件概率分布长这样：

MLAPP 第四章高斯模型

具体的证明在后面4.3.4详细给出。

MLAPP 第四章高斯模型

这里会讲一些例子，给出一些更加直观的东西

4.3.2.1 2维高斯的边缘分布和条件分布

如果是二维的联合分布，那么协方差矩阵可以写成： MLAPP 第四章高斯模型，那么由上面的公式我们可以的到边缘分布就是，同时：，如果，那么我们可以得到：。如下图：

MLAPP 第四章高斯模型

其中 MLAPP 第四章高斯模型，我们发现，这意味着偏离1，偏离的期望就是0.8，这是因为体现的是线性相关性。当=0，那就说明完全没有线性相关性，这时，这也应证了之前说的，二维高斯不相关就是独立。这幅图第一张是联合概率分布，红线表示观测到了 MLAPP 第四章高斯模型，第二幅图是,第三幅图是，很明显第二幅图数据更加的集中，方差更小。

4.3.2.2 无噪声数据插值

这一块本来我是不太懂的，但是现在我有了一些自己的理解。如果是错误的或者有误差希望能被指正。在一个区间里面[0,T]，有D个点，每个点对应于一个值，即 MLAPP 第四章高斯模型，我们观测到了其中N个点的值，还有D-N个值，那么我们就需要把这个f给找出来，去把剩下的D-N个点估出来。那么我们这里有一个原则就是估出来的点尽量的要保持光滑，怎么保持光滑，这时候就要引入一个使结果光滑的先验，怎么做的呢，下面我们慢慢看。

首先假设我们的数据点是等间距的分布在[0,T]中，那么有 MLAPP 第四章高斯模型，这里的x就是我们观测到的点。那么我们做出如下的假设：，这个式子就是光滑性的一种体现。其中，那么我们有，矩阵矩阵的形式如下：

MLAPP 第四章高斯模型，那么相应的先验就是：

MLAPP 第四章高斯模型，这是因为是服从高斯分布，把这个变形成就可以了。这个先验其实是不当的（improper），因为的维度是D，但是精度矩阵的秩是D-2。当然在这样的先验下，只要我们观察的数据大于2，那么后验就是proper的.

把上面的先验作为联合概率分布的话，那么我们将数据分为两个部分 MLAPP 第四章高斯模型，其中是我们观察到的，而是我们要去估计的。不失一般性，假设观察到的全在后面，没观察到的在前面。那么

MLAPP 第四章高斯模型精度矩阵可以写为：

MLAPP 第四章高斯模型，根据公式4.69。那么后验均值就得到了，这个均值与观察得到的肯定是比较光滑的。

4.3.2.3 数据估算

数据估算就是我们只观测到了一部分数据，有一部分数据是丢失的。数据之间具有一定的相关性，那么我们就可以去估计那些没有被看到的数据。

在高斯模型下，我们假设数据是服从20维的高斯分布中得到的。假设模型已知，参数已知的。那么我们就可以得到条件分布 MLAPP 第四章高斯模型，就是第i个数据，你观测到的那一部分，就是你没有观测到的那一部分，那么对于这个高斯分布，我们又可以得到每一项的边缘分布：，从而通过期望，估计每一项的值。然后可以通过方差的计算去评估我们估计的可靠性。当然我们也可以直接对 MLAPP 第四章高斯模型求期望，整体进行估计。如果生成数据的模型参数不是已知的，我们可以通过最大似然的方法去估计。每一个数据的似然就是，这个可以通过4.68求得。

4.3.3 信息形式

一般来说我们对于高斯分布的刻画就是均值 MLAPP 第四章高斯模型和协方差矩阵。这个参数叫做moment parameters，然而在一些情况下用另一种形式的参数更方便：，这个叫做canonical parameters或者nature parameters。我们有：，使用新的参数，MVN就改写成信息的形式（information form）： MLAPP 第四章高斯模型，这里我们用来表示。同样我们得到该形式下的边缘分布和条件分布：

MLAPP 第四章高斯模型

另一个很重要的特性就是在信息形式下： MLAPP 第四章高斯模型，而在moment form下，形式会很复杂：。

4.3.4 结果的证明*

下面我们要开始证明定理4.3.1了，前面先证明一些引理。

4.3.4.1 利用舒尔补求分块矩阵的逆

我们需要的一个很重要的工具就是求分块矩阵的逆。

定理4.3.2（分块矩阵的逆）

考虑一个分块矩阵 MLAPP 第四章高斯模型，其中和是可逆的。那么我们有：

MLAPP 第四章高斯模型，其中是关于的舒尔补。

证明：如果我们可以把一个矩阵块对角化的话，那么求逆就很好求。首先把右上角变成 MLAPP 第四章高斯模型，那么有

MLAPP 第四章高斯模型，我们再右乘一个矩阵，使得左下角也变成零，那么有

MLAPP 第四章高斯模型，这个时候我们有矩阵块对角化的形式：

MLAPP 第四章高斯模型，两边求逆，有，那么我们就得到了：，的逆是很好求的。根据如上舒尔补的定义，有：

MLAPP 第四章高斯模型

同样如果是对 MLAPP 第四章高斯模型的舒尔补的话就是：

MLAPP 第四章高斯模型

4.3.4.2 矩阵逆的引理

推论 4.3.1（矩阵逆的推论），考虑一个一般的分块矩阵 MLAPP 第四章高斯模型，其中和是可逆的，我们有：

MLAPP 第四章高斯模型

第一个式子叫做矩阵逆引理，第二个公式叫做谢尔曼 - 莫里森 - 伍德伯里公式，第三个公式叫做矩阵行列式引理。第一个式子和第二个式子根据定理4.3.2是很容易的。第三个式子的证明如下：

MLAPP 第四章高斯模型

在机器学习里面一个很常见的应用就是令 MLAPP 第四章高斯模型是一个的对角阵。，且。那么我们有：，左边的计算量是，而右边的计算量是，因为N远大于D，所以这样可以大大减少计算量。

另一个应用的例子就是： MLAPP 第四章高斯模型，那么我们就有

MLAPP 第四章高斯模型

有的时候比如我们增加了一个数据，那么就相当于加了一维，这时候用这个公式去更新逆矩阵就很快。

4.3.4.3 高斯条件公式的证明

首先联合概率分布的指数部分应该是这样的： MLAPP 第四章高斯模型，使用公式4.102进行展开，得到：

MLAPP 第四章高斯模型

这个就是关于 MLAPP 第四章高斯模型的二次式的指数乘以的二次式的指数，由于我们有：，所以第一个式子关于的高斯分布，根据对应关系，必然有：。同样我们可以利用公式（由4.102很容易得到）去验证归一化常数也是正确的：

MLAPP 第四章高斯模型

4.4 线性高斯系统

假设我们有两个变量 MLAPP 第四章高斯模型，是我们需要估计的隐变量，是维的，是关于的线性的有噪观测，是维的。我们有如下的先验和似然：，通过观测去估计。

4.4.1 结果的陈述

定理 4.4.1（线性高斯系统的贝叶斯规则）给定一个线性高斯系统，如式子4.124，那么 MLAPP 第四章高斯模型的后验分布具有如下的形式：

MLAPP 第四章高斯模型，归一化常数：

4.4.2 例子

这一节中，给出一些应用。

4.4.2.1 从有噪的测量中推断未知的常量

假设我们从一些潜在的量x中观测到了N个有噪的测量 MLAPP 第四章高斯模型，测量噪声具有固定的精度参数（是0均值的高斯噪声），那么似然函数可以写成：，假设x具有这样的先验：。我们希望计算的肯定就是，首先由于观测是N个，所以，其中

MLAPP 第四章高斯模型，所以根据公式4.125，我们有：

MLAPP 第四章高斯模型。这两个结果都是比较直观的显示了后验参数与先验参数和似然参数的关系。在均值方面，随着N的增加，参与与MLE的估计值越来越接近。对于均值，注意到你N个值每个值的精度为，从公式上看就和你观测到了一个数据，其精度为 MLAPP 第四章高斯模型是一样的。

我们可以使用后验方差的参数（精度参数与方差之间的关系就是倒数）进行重写：

MLAPP 第四章高斯模型

其中： MLAPP 第四章高斯模型，。我们也可以序贯的进行更新，即N=1，设那么我们有：

MLAPP 第四章高斯模型

右边表示 MLAPP 第四章高斯模型可以有3种的表达形式，这三种表达方式都说明了，后验参数是先验参数和似然参数的一个折中。每一次估计完之后用后验去覆盖先验，在进行下一轮估计，这就是序贯估计。

我们还有一种衡量方法就是信噪比，因为其实我们的先验对应于就是真实信号，似然这一块对应于噪声的污染，如果没有噪声，那么先验和后验应该是一样的。相反则是跟MLE一样，信噪比也是一个评判折中度的标准。 MLAPP 第四章高斯模型。

4.4.2.2 从有噪的数据中推断未知的向量

现在考虑的是假设我们的值是向量，那么我们观察了N次，就是得到了N个向量 MLAPP 第四章高斯模型，的先验是高斯分布，我们使用作为有效的观测，那么这时候，精度为。那么利用4.125，我们有：

MLAPP 第四章高斯模型

假设我们有多个不同的观察设备，那么对于每一个设备，其可靠性是不一样的，那么我们想把这些传感器的观测合到一起，这就叫做传感器融合。在图4.14中，我么假设先验是没有任何信息的，那么 MLAPP 第四章高斯模型，假设我们有两个有噪的观测：，，我们要去计算，跟上面不一样的是，这里的协方差矩阵并不是要求相同的。书中举了一个例子，具体就不写了，具体的体现就是不同的协方差矩阵，会使得的估计值倾向于不同的传感器。

4.4.2.3 噪数据的插值

在这里我们假设观测是有噪的，之前讲的是无噪声的。那么系统模型为 MLAPP 第四章高斯模型，其中，就是一个观测投影矩阵。假如我们的数据有4个D=4，观测到了2个N=2。那么，我们同样使用之前的先验，那么后验是很容易计算的，我们同样假设前N个没有被观测到，后D-N观测到了，那么后验很好算。 MLAPP 第四章高斯模型，这个就是后验的指数部分（取了个负号）。左边是似然，右边是先验。这里定义了，，这是为了书写简单。那么我们要去估这个就是。

4.4.3 结果的证明*

现在我们开始证明4.125，基本的思想就是先得到联合概率分布 MLAPP 第四章高斯模型，然后利用模块4.3.1的结论去计算。首先，对于联合分布取对数，并且忽略掉常数项：

MLAPP 第四章高斯模型

然后把二次项给选出来：

MLAPP 第四章高斯模型

然后就得到了： MLAPP 第四章高斯模型，那么联合分布的参数就有了，再根据，最后通过公式4.69得到：

MLAPP 第四章高斯模型

4.5 题外话：wishart 分布

wishart分布是gamma的一个泛化，它是针对一个正定的矩阵的。这个分布在多元统计里面同样很重要。大部分情况下我们都是用它来衡量协方差矩阵后者是精度矩阵的不确定性。wishart分布的pdf定义如下： MLAPP 第四章高斯模型。其中叫做自由度，叫做尺度矩阵。其中归一化常数是所有的对称正定矩阵的积分，D就是高斯分布数据的维度。我们有：

MLAPP 第四章高斯模型，称为多变量的gamma函数。归一化常数仅仅在。对于，其，众数仅在时存在。

这个分布很复杂，那么它到底有什么用呢。这个分布与高斯分布有一定的联系。对于一个高斯分布 MLAPP 第四章高斯模型，那么尺度矩阵就是服从wishart分布的，。

4.5.1 inverse wishart 分布

gamma分布我们有inverse gamma分布，并且关系如下： MLAPP 第四章高斯模型，相似的，我们有：

MLAPP 第四章高斯模型，IW就叫做inverse wishart。定义如下：对于且：

MLAPP 第四章高斯模型

该分布具有如下的性质： MLAPP 第四章高斯模型。

4.5.2 wishart 分布的可视化*

由于wishart分布是关于协方差矩阵的，所以是很难可视化的（维度的问题），所以我们通过采样的方式，特别对于二维的来说，我们可以通过采样矩阵的特征向量和特征值来刻画，这时可以通过椭圆来表示。如下图：

MLAPP 第四章高斯模型

左边就是9个采样，利用特征值和特征向量来描述。右边是边际分布，对角线上的元素就是服从gamma，是比较容易画的，在对角线以外的就要使用蒙特卡洛的方法去做。如果我们要去估计相关系数的话，也可以使用蒙特卡洛的方法去做。 MLAPP 第四章高斯模型，这个是估计的相关系数，而，所以我们要把协方差矩阵转化为相关矩阵。

4.6 多元高斯分布参数的推断

前面除了在高斯判别模型中，我们假设类条件概率是服从高斯分布的，去估计参数，后面的两块内容都是在参数已知的情况下去计算其它的参数。接下来我们就要讲多元高斯分布的参数的推断。我们一共观察到了N个数据，每一个数据都是从 MLAPP 第四章高斯模型这样的分布中得到的。为了简化展示，从三个部分去计算后验，首先计算，然后是，最后是。

4.6.1 均值的后验

本章的开头就介绍了怎么去计算 MLAPP 第四章高斯模型的最大似然估计，现在我们就去考虑怎么去计算后验。书中似然如下：，这里作一些说明，每一个数据是服从高斯分布的，所以从之前的理解，似然函数就应该是，如果我们只是关注变量的话，那么似然函数就可以写成高斯函数的形式。再利用同样的结论，可以得到：

MLAPP 第四章高斯模型

在贝叶斯模型下，参数的不确定性的描述和变量是一样的，因为在这里参数就被刻划成了变量。这个就和之前对于向量的观测时一样的。如果我们没有任何的先验信息，即 MLAPP 第四章高斯模型，那么。

4.6.2 后验协方差矩阵的估计*

上面我们关注的是均值 MLAPP 第四章高斯模型，现在我们关注的是协方差矩阵，似然函数为：，这里这个似然函数就和我上面说的那个是一致的，，这个似然函数的共轭先验就是之前提出的inverse wishart分布。其pdf是：，其中表示的是自由度，是对称的正定矩阵， MLAPP 第四章高斯模型表示的是先验的强度。把先验和似然乘起来就得到了后验分布：

MLAPP 第四章高斯模型

后验对于先验来说，就是自由度加了N，然后尺度矩阵加了 MLAPP 第四章高斯模型。

4.6.2.1 MAP估计

之前在进行MLE的时候说过，如果数据的个数N小于维度D，那么估计出来的协方差矩阵是不可逆的，奇异的，即使N>D，也很有可能是病态的，也就是说条件数很大。所以我们使用后验估计。对于协方差矩阵，其后验分布是IW分布，所以其MAP为：

MLAPP 第四章高斯模型，在没有先验的情况下，和MLE是一样的。我们令，所以（这里的均值如果用后验得到的均值代替就不太行，所以这里我想说就是在这两块中对于均值和方差都是单独拿出来作分析的，理论上参数的后验应该是联合估计，后面会讲到，单独估计的话，应该另一个参数是已知），我们重写MAP估计：

MLAPP 第四章高斯模型，其中，，后验就是先验似然线性组合。

那么我们怎么去设置这个先验呢，对于 MLAPP 第四章高斯模型，我们可以使用交叉验证的方法，或者书中也提出了也可以有闭式的表达式的，可能比较复杂，我就不深究了。另外对于，我们往往使用，，这样MAP估计的结果就是，这个与MLE相比，对角线元素不变，其他元素被压缩了，这个也叫shrinkage estimation或者regularized estimation。

4.6.2.2 变量维度是1的后验

在一维的情况下，方差的后验具有如下的形式： MLAPP 第四章高斯模型，那么共轭分布就是标量的inverse wishart也就是inverse Gamma：，所以后验分布也是inverse Gamma:

MLAPP 第四章高斯模型

这里形式上没有高维度的好看，多了一个系数1/2，这是因为 MLAPP 第四章高斯模型，而且gamma分布的强度和都有关（这里的这个区别不太明白），所以改一下形式，所以有：

MLAPP 第四章高斯模型

。

4.6.3 均值和协方差联合的后验分布*

之前我们都是考虑单独的，现在我们要考虑联合的后验分布 MLAPP 第四章高斯模型。

4.6.3.1 似然

似然函数写成： MLAPP 第四章高斯模型，对于指数部分我们将其分开写。

那么就可以写成： MLAPP 第四章高斯模型，那么似然函数就可以转化为最终如下的形式，转化成这样的形式是为了更好地去理解耦合先验：

MLAPP 第四章高斯模型

4.6.3.2 先验

对于上面的似然我们选用什么先验呢，我们第一个直觉上就是使用： MLAPP 第四章高斯模型，但是值得注意的一点是这并不是共轭先验，因为似然函数的是耦合在一起的，所以乘上这个先验后，还是耦合在一起的。这样的先验我们称之为半共轭或者是条件共轭先验。这是因为我们假设中有一个是已知的话，把另一个当作变量的话就是共轭的，这也就是我们之前所提到的。

那么我们如果要获得一个真正的共轭先验，就需要不能将 MLAPP 第四章高斯模型独立的看待。所以我们引出一个分布叫Normal-inverse-wishart或者NIW分布。具体形式如下：

MLAPP 第四章高斯模型

其中 MLAPP 第四章高斯模型是多变量的gamma函数。这个分布有四个参数，是的先验均值，体现的是先验强度，是的先验均值，体现的是先验强度。如果没有任何的先验信息的话，那就是体现强度信息的参数趋于0，即：

MLAPP 第四章高斯模型

但是往往选用依赖于数据的比较弱的先验，一个比较常见的选择是： MLAPP 第四章高斯模型取一个比较小的数，比如0.01。

4.6.3.3 后验

将先验和似然乘起来就得到了后验，这个并不难，前面都有推导，那么我们后验分布就是：

MLAPP 第四章高斯模型

4.6.3.4 后验众数

后验众数： MLAPP 第四章高斯模型，

如果 MLAPP 第四章高斯模型，那么可以简化为。

4.6.3.5 后验边缘分布

MLAPP 第四章高斯模型的后验边缘分布就是IW分布，即：，这个众数和均值我们都可以得到：。

而关于 MLAPP 第四章高斯模型的积分就不再是高斯分布，而是多变量的学生T分布了:

MLAPP 第四章高斯模型

这个可以看成多个高斯分布的同均值，不同尺度协方差矩阵的和（后面会讲到）

4.6.3.6 后验估计

MLAPP 第四章高斯模型

4.6.3.7 对于常量数据的后验估计

类似于前面的4.6.2.2，这里不使用normal inverse wishart而是使用normal inverse chi-squared(NIX)分布，定义如下：

MLAPP 第四章高斯模型，书中画了一些三维图，其中在均值的坐标轴上看就是高斯分布，在方差的坐标轴上看就是分布，并且方差越小，高斯分布就越尖锐。

后验分布可以写成：

MLAPP 第四章高斯模型

那么后验的边缘分布就是 MLAPP 第四章高斯模型，均值为。

MLAPP 第四章高斯模型，均值为

假设我们的先验没有任何的信息： MLAPP 第四章高斯模型，那么后验就是，其中

这里我觉得为什么先验的 MLAPP 第四章高斯模型而不是0，就是为了使得后验方差的这个值是统计上的无偏估计。

然后关于均值的边缘分布就是， MLAPP 第四章高斯模型，，（置信区间）。以上关于很多的分布的均值和方差，以及为什么边缘分布是学生分布等等一系列关于概率论的公式的推导，我都没有去推，一来这一块在数学里面都已很成熟，毕竟我们学的是机器学习思想，不是学数学，我觉得必要性不是很大，另一方面推导也一定会很复杂，实在没有过多精力。不过我觉得并不影响对于这一块思想的理解。

4.6.3.8 贝叶斯t测试

我们经常要做测试，对于一些已知的 MLAPP 第四章高斯模型，我们了解数据上的均值和已知的是否是一致的，那么我们有一堆数据，这个叫做（two-sided, one-sample t-test），一个简单的方法就是看这个式子是否成立。如果不成立的话，那么我们有95%的肯定。另一个更常见的就是有两组采样 MLAPP 第四章高斯模型，我们希望知道这两组采样的均值是否相等。那么我们希望去判定是否，我们使用作为数据。那么我们可以得到，这个就叫做（one-sided, paired t-test）。

下面介绍一个t统计量。假如我们的先验是无信息的，那么后验就是 MLAPP 第四章高斯模型，t统计量定义为，其中分母就是标准差。我们发现，其中是标准学生分布的cdf。（这个统计量有什么用我也不清楚）

4.6.3.9 与频率统计之间的联系

如果我们使用无信息的先验，那么用贝叶斯方法得到的结果与使用频率的方法是一样的（我们会在第六章讲频率派统计）。如果时无信息的先验，那么 MLAPP 第四章高斯模型，这个是把看成变量，对于似然来说，我们把看成变量，那么，这是因为学生分布关于和是对称的，所以，所以从采样（也就是似然）和后验针对均值是一样的。所以MLE与MAP的结果是一样的。

4.6.4 未知精度下的传感器融合

在这一块中，我们将4.6.3的结果应用到传感器融合（多个传感器进行测量，每个的精度参数未知）的问题下，之前在4.4.2.2我们也有过传感器融合，在那里我们假设我们的精度参数是已知，这里我们是未知的。书中的例子是1维的。假设有两个测量仪器。精度参数都不一样： MLAPP 第四章高斯模型，然后每一个仪器观察了两次，结果显示为，假设我们的是没有先验信息的，即，那么假设精度参数已知，有后验为：