NNPR-Chap10 贝叶斯技术（4）alpha和beta的置信度

前面假定超参数和是已知的，实际上这不太可能，只是有些情况下对噪声水平有些了解。我们也知道，正确的贝叶斯方法在处理这些未知参数时，就是对它们积分，这样最终预测函数就与它们无关了。例如，网络权重的后验分析计算方法如下

（1）

要解上面问题，方法还是那两种套路：1）解析方法：通过积分直接计算式1。留到本章第5节来介绍；2）近似方法：MacKay（1992a,1992d)研究此问题。这里先学习一下后者。

1）假设在附近呈现尖峰状，这样式1可近似为下式。也就是说，先求解找到和的最大后验概率值，然后直接带入下式计算。

（2）

2）那么怎么求呢，还是利用贝叶斯准则构造下式求解。注意，这里要选择合适的先验，因为它代表了超参数的先验，因此也称为超先验（hyperprior）。

（3）

上面介绍了大体流程，下面介绍具体怎么求。

1）首先，如何选择先验呢?当没有任何概念时，选择的先验要所有参数值重要度相同，称为无信息先验。实际上，和是尺度参数（scale parameters），因为它们分别决定和噪声的尺度。这里，因为没有不知道什么值合适，因此假设超先验对和值不敏感。

2）其次，由于式3中分母与超参无关，因此可通过最大化得到。也称为和的置信度（evidence）。

到此，大家是不是能体会到一点层次化求解的意思呢？第一层求权重的分布（式1）；第二层求超参的分布；且第二层中的置信度是前一层贝叶斯公示中的分母。这种结构就是一个层次化模型（hierarchical models，这其实也是目前很热的Graphical Modes研发方向搞的内容。

那么怎么求？首先构建它的表达式

1）首先有下式（这里利用了权重先验与无关，似然与无关的信息）

（4）

2）利用前面介绍的下面几个式子：

      权重先验的指数形式

      似然分布的指数形式

      以及和

带入式4得



其中在选定的先验和噪声模型下的解也在前面讨论过了：；

若利用高斯近似权重的后验分布，那么

3）得到置信度的log

                     （5）

到此，表达式的推导完，应该说是很复杂的，具体怎么求？

首先考虑对求解，以找到最大值。

1）求对的微分

     A）A可写为，其中是非正则化误差函数的赫森矩阵；

     B）若 H的特征值为，则A的特征值为

     C）从而，有

（6）

     注意：这里假设特征值不依赖于。

          a）是权重的二次函数（如线性网络，误差为SSE）时，赫森矩阵是常数，上面假设成立，式6正确。

          b）对于非线性网络，赫森阵是权重的函数。因为赫森阵是在处计算，而依赖于，那么上面假设不成立。式6不

              正确，因为它忽略了

     D）在上面假设下，式5对的最大值解为

                  （7）

                 （8）

对于上的结果，前人(Gull, 1989).已经给出了简单优美的解释：最大可能权重的值代表了在多大程度上权重值来自于数据中的信息，没有任何数据时，＝0。。假设特征值为正，那么取值范围为(0,1)。它的几何解释为：旋转权重空间左边轴，以与赫森矩阵H的特征向量方向对齐。示意图1，圆环代表的等高线（对应先验piror），椭圆代表的等高线（对应似然likelihood)

1）在的方向上(图１中W1方向）：式8中求和项接近于1；权重主要由数据决定。

2）在的方向上(图１中W2方向）：式8中求和项主要由决定；权重主要由先验决定。

图1

3）因此度量了有效权重的个数，这些权重的值由数据决定而不是先验，因此也称为well-determined parameters

接下来研究对求解以找到最大值的问题。

1）因为是特征值，因此它与成比例，即满足，从而有

（8）

2）上面的东东会使式5在最大值处满足如下条件

（9）

3）由及式7和式9可知，总误差S(w)在处满足

到此，所有的分析都利用单高斯分布来近似权重的后验分布。这并不足够合理，因为对应非线性网络其正则化误差S(w)会有很多极小值。MacKay(1992d)采用的方法，是选择一系列特殊的权重来预测，它们对应于S(w)的特殊的极小点。因此，可以选取合适的和值（不同的极小点可能会要求不同的值）。这时，式4的积分就不是对整个权重空间进行的，而是对这些极小点领域范围进行积分。

上面的思想很好，具体如何实现呢，即如何找到最优和以及？一个简单的方法就是迭代求解，由式7和9有

这里，进一步利用Chap10第3节中图3的例子来讲述另一种方法，即利用置信度方法（evidence approach）来确定和，见图2和图3。对比两图，可发现：

1）置信度的最大值近似发生在满足的地方

2）注：两图中设为其真值；值是通过利用精确解析方法（exact analytical methods）计算赫森矩阵，然后找到其特征值谱而得到的。

图2（横坐标是lna，横线对应r，曲线对应，设为其真值）图3（横坐标是lna，曲线是a的logevidence（lnp(D|a)）,设为其真值)

得到最大化置信度的和值之后，就可以构造置信度的高斯近似。