前面假定超参数NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 是已知的,实际上这不太可能,只是有些情况下对噪声水平NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度有些了解。我们也知道,正确的贝叶斯方法在处理这些未知参数时,就是对它们积分,这样最终预测函数就与它们无关了。例如,网络权重的后验分析计算方法如下

                  NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度    (1)

 

要解上面问题,方法还是那两种套路:1)解析方法:通过积分直接计算式1。留到本章第5节来介绍;2)近似方法:MacKay(1992a,1992d)研究此问题。这里先学习一下后者。

1)假设NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 附近呈现尖峰状,这样式1可近似为下式。也就是说,先求解NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度找到NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的最大后验概率值NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度,然后直接带入下式计算。

          NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度    (2)

2)那么NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度怎么求呢,还是利用贝叶斯准则构造下式求解。注意,这里要选择合适的先验NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 ,因为它代表了超参数的先验,因此也称为超先验(hyperprior)。

          NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度             (3)

 

上面介绍了大体流程,下面介绍NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度具体怎么求。

1)首先,如何选择先验NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度呢?当没有任何概念时,选择的先验要所有参数值重要度相同,称为无信息先验。实际上,NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 是尺度参数(scale parameters),因为它们分别决定NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 和噪声的尺度。这里,因为没有不知道什么值合适,因此假设超先验NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度值不敏感。

2)其次,由于式3中分母与超参无关,因此NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度可通过最大化NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 得到。NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度也称为NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的置信度(evidence)。

 

到此,大家是不是能体会到一点层次化求解的意思呢?第一层求权重的分布(式1);第二层求超参的分布;且第二层中的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度是前一层贝叶斯公示中的分母。这种结构就是一个层次化模型(hierarchical models,这其实也是目前很热的Graphical Modes研发方向搞的内容。

 

那么NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度怎么求?首先构建它的表达式

1)首先有下式(这里利用了权重先验与NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度无关,似然与NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度无关的信息)

                  NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度          (4)

2)利用前面介绍的下面几个式子

      权重先验的指数形式NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

      似然分布的指数形式      NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

      以及 NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

带入式4得

          NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

其中NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 在选定的先验和噪声模型下的解也在前面讨论过了NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度  ;  NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

若利用高斯近似权重的后验分布,那么NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

3)得到置信度的log

                 NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度    (5)

 

到此,NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度表达式的推导完,应该说是很复杂的,具体怎么求?

首先考虑对NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度求解,以找到最大值。

1)求NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度的微分

     A)A可写为NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 ,其中NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 是非正则化误差函数的赫森矩阵;

     B)若 H的特征值为NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度,则A的特征值为NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

     C)从而,有

           NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度    (6)

     注意:这里假设特征值NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 不依赖于NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

          a)NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 是权重的二次函数(如线性网络,误差为SSE)时,赫森矩阵是常数,上面假设成立,式6正确。

          b)对于非线性网络,赫森阵是权重的函数。因为赫森阵是在NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 处计算,而NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 依赖于NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度,那么上面假设不成立。式6不

              正确,因为它忽略了NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

     D)在上面假设下,式5对NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度的最大值解为

             NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度     (7)

             NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度    (8)

对于上的结果,前人(Gull, 1989).已经给出了简单优美的解释:最大可能权重NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度的值代表了在多大程度上权重值来自于数据中的信息,没有任何数据时,NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 =0。。假设特征值为正,那么NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 取值范围为(0,1)。它的几何解释为:旋转权重空间左边轴,以与赫森矩阵H的特征向量方向对齐。示意图1,圆环代表NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的等高线(对应先验piror),椭圆代表NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的等高线(对应似然likelihood)

1)在NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的方向上(图1中W1方向):式8中求和项接近于1;权重主要由数据决定。

2)在NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的方向上(图1中W2方向):式8中求和项主要由NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度决定;权重主要由先验决定。

                          NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 图1

3)因此NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 度量了有效权重的个数,这些权重的值由数据决定而不是先验,因此也称为well-determined parameters

 

接下来研究NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 求解以找到最大值的问题。

1)因为NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 特征值,因此它与NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度成比例,即满足NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 ,从而有

        NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度      (8)

2)上面的东东会使式5在最大值处满足如下条件

       NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度       (9)

3)由NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 及式7和式9可知,总误差S(w)在NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度处满足NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

 

到此,所有的分析都利用单高斯分布来近似权重的后验分布。这并不足够合理,因为对应非线性网络其正则化误差S(w)会有很多极小值。MacKay(1992d)采用的方法,是选择一系列特殊的权重NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度来预测,它们对应于S(w)的特殊的极小点。因此,可以选取合适的NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度值(不同的极小点可能会要求不同的值)。这时,式4的积分就不是对整个权重空间进行的,而是对这些极小点领域范围进行积分。

上面的思想很好,具体如何实现呢,即如何找到最优NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度以及NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度?一个简单的方法就是迭代求解,由式7和9有

             NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

 

这里,进一步利用Chap10第3节中图3的例子来讲述另一种方法,即利用置信度方法(evidence approach)来确定NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度,见图2和图3。对比两图,可发现:

1)置信度的最大值近似发生在满足NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的地方

2)注:两图中NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度设为其真值;NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度值是通过利用精确解析方法(exact analytical  methods)计算赫森矩阵,然后找到其特征值谱而得到的。

              NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度                                          NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度

   图2(横坐标是lna,横线对应r,曲线对应NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度设为其真值)           图3(横坐标是lna,曲线是a的logevidence(lnp(D|a)),NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度设为其真值)

得到最大化置信度的NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度值之后,就可以构造置信度NNPR-Chap10 贝叶斯技术(4)alpha和beta的置信度 的高斯近似。

 

 

 

 

  •    

相关文章:

  • 2022-12-23
  • 2021-12-30
  • 2021-08-08
  • 2021-08-28
  • 2021-09-28
  • 2022-12-23
  • 2021-11-04
  • 2021-07-22
猜你喜欢
  • 2021-10-16
  • 2021-11-19
  • 2021-12-24
  • 2021-09-06
  • 2021-12-19
  • 2022-01-18
  • 2022-03-03
相关资源
相似解决方案