随机模拟（MCMC）

http://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/

http://blog.csdn.net/lin360580306/article/details/51240398

http://blog.csdn.net/pipisorry/article/details/51373090

随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代，和原子弹制造的曼哈顿计划密切相关，当时的几个大牛，包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis，在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候，开始使用统计模拟的方法,并在最早的计算机上进行编程实现。

随机模拟与计算机

现代的统计模拟方法最早由数学家乌拉姆提出，被Metropolis命名为蒙特卡罗方法，蒙特卡罗是著名的赌场，赌博总是和统计密切关联的，所以这个命名风趣而贴切，很快被大家广泛接受。被不过据说费米之前就已经在实验中使用了，但是没有发表。说起蒙特卡罗方法的源头，可以追溯到18世纪，布丰当年用于计算

蒙特卡罗方法

统计模拟中有一个重要的问题就是给定一个概率分布Uniform(0,1) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质，可以被当成真实的随机数使用。

生成一个概率分布的样本

而我们常见的概率分布，无论是连续的还是离散的分布，都可以基于Uniform(0,1) 的样本生成。例如正态分布可以通过著名的 Box-Muller 变换得到

[Box-Muller 变换] 如果随机变量 U1,U2∼Uniform[0,1]，

Z0=-2lnU1cos(2πU2)Z1=-2lnU1sin(2πU2)

则 $Z_{0}, Z_{1}$

其它几个著名的连续分布，包括指数分布、Gamma 分布、t 分布、F 分布、Beta 分布、Dirichlet 分布等等,也都可以通过类似的数学变换得到；离散的分布通过均匀分布更加容易生成。更多的统计分布如何通过均匀分布的变换生成出来，大家可以参考统计计算的书，其中 Sheldon M. Ross 的《统计模拟》是写得非常通俗易懂的一本。

不过我们并不是总是这么幸运的，当p(x) 是个高维的分布的时候，样本的生成就可能很困难了。譬如有如下的情况

p~(x) 我们是可以计算的，但是底下的积分式无法显式计算。
p(x) 是高维的，这种情形就更加明显。

此时就需要使用一些更加复杂的随机模拟的方法来生成样本。而本节中将要重点介绍的 MCMC(Markov Chain Monte Carlo) 和 Gibbs Sampling算法就是最常用的一种，这两个方法在现代贝叶斯分析中被广泛使用。要了解这两个算法，我们首先要对马氏链的平稳分布的性质有基本的认识。

3.2 马氏链及其平稳分布

马氏链的数学定义很简单

P(Xt+1=x|Xt,Xt-1,\dots)=P(Xt+1=x|Xt)

$Z_{0}, Z_{1}$

我们先来看马氏链的一个具体的例子。社会学家经常把人按其经济状况分成3类：下层(lower-class)、中层(middle-class)、上层(upper-class)，我们用1,2,3 分别代表这三个阶层。社会学家们发现决定一个人的收入阶层的最重要的因素就是其父母的收入阶层。如果一个人的收入属于下层类别，那么他的孩子属于下层收入的概率是 0.65, 属于中层收入的概率是 0.28, 属于上层收入的概率是 0.07。事实上，从父代到子代，收入阶层的变化的转移概率如下

使用矩阵的表示方式，转移概率矩阵记为

P=[0.650.280.070.150.670.180.120.360.52]

假设当前这一代人处在下层、中层、上层的人的比例是概率分布向量 πn=πn−1P=π0Pn。

假设初始概率分布为n代人的分布状况如下

我们发现从第7代人开始，这个分布就稳定不变了，这个是偶然的吗？我们换一个初始概率分布n代人的分布状况如下

我们发现，到第9代人的时候, 分布又收敛了。最为奇特的是，两次给定不同的初始概率分布，最终都收敛到概率分布 Pn

P20=P21=\dots=P100=\dots=[0.2860.4890.2250.2860.4890.2250.2860.4890.225]

我们发现，当 π=[0.286,0.489,0.225] 这个概率分布。自然的，这个收敛现象并非是我们这个马氏链独有的，而是绝大多数马氏链的共同行为，关于马氏链的收敛我们有如下漂亮的定理：

马氏链定理： 如果一个非周期马氏链具有转移概率矩阵limn→∞Pijn=π(j), 我们有

limn→∞Pn=[π(1)π(2)⋯π(j)⋯π(1)π(2)⋯π(j)⋯⋯⋯⋯⋯⋯π(1)π(2)⋯π(j)⋯⋯⋯⋯⋯⋯]

π(j)=∑i=0∞π(i)Pij
πP=π 的唯一非负解

其中,

π=[π(1),π(2),\dots,π(j),\dots],\sumi=0\inftyπi=1

$Z_{0}, Z_{1}$

这个马氏链的收敛定理非常重要，所有的 MCMC(Markov Chain Monte Carlo) 方法都是以这个定理作为理论基础的。 定理的证明相对复杂，一般的随机过程课本中也不给证明，所以我们就不用纠结它的证明了，直接用这个定理的结论就好了。我们对这个定理的内容做一些解释说明：

该定理中马氏链的状态不要求有限，可以是有无穷多个的；
定理中的“非周期“这个概念我们不打算解释了，因为我们遇到的绝大多数马氏链都是非周期的；
两个状态Pn 中的任何一个元素的数值都大于零。
我们用 $X_{i}$ $P(Xn+1=j)=\sumi=0\inftyP(Xn=i)P(Xn+1=j|Xn=i)=\sumi=0\inftyP(Xn=i)Pij$ π(j)=∑i=0∞π(i)Pij

从初始概率分布 πi, 则有

X0\simπ0(x)Xi\simπi(x),πi(x)=πi-1(x)P=π0(x)Pn

$Z_{0}, Z_{1}$

X0\simπ0(x)X1\simπ1(x)\dotsXn\simπn(x)=π(x)Xn+1\simπ(x)Xn+2\simπ(x)\dots

$Z_{0}, Z_{1}$

3.3 Markov Chain Monte Carlo

对于给定的概率分布xn,xn+1⋯。

这个绝妙的想法在1953年被 Metropolis想到了，为了研究粒子系统的平稳性质， Metropolis 考虑了物理学中常见的波尔兹曼分布的采样问题，首次提出了基于马氏链的蒙特卡罗方法，即Metropolis算法，并在最早的计算机上编程实现。Metropolis 算法是首个普适的采样方法，并启发了一系列 MCMC方法，所以人们把它视为随机模拟技术腾飞的起点。 Metropolis的这篇论文被收录在《统计学中的重大突破》中， Metropolis算法也被遴选为二十世纪的十个最重要的算法之一。

我们接下来介绍的MCMC 算法是 Metropolis 算法的一个改进变种，即常用的 Metropolis-Hastings 算法。由上一节的例子和定理我们看到了，马氏链的收敛性质主要由转移矩阵p(x)。如何能做到这一点呢？我们主要使用如下的定理。

定理：[细致平稳条件] 如果非周期马氏链的转移矩阵π(x) 满足

(1)π(i)Pij=π(j)Pjifor alli,j

$Z_{0}, Z_{1}$

其实这个定理是显而易见的，因为细致平稳条件的物理含义就是对于任何两个状态π(x)是马氏链的平稳分布。数学上的证明也很简单，由细致平稳条件可得

\sumi=1\inftyπ(i)Pij=\sumi=1\inftyπ(j)Pji=π(j)\sumi=1\inftyPji=π(j)\RightarrowπP=π

$Z_{0}, Z_{1}$

假设我们已经有一个转移矩阵为q(i→j)), 显然，通常情况下

p(i)q(i,j)\neqp(j)q(j,i)

$Z_{0}, Z_{1}$

(2)p(i)q(i,j)α(i,j)=p(j)q(j,i)α(j,i)(*)

$Z_{0}, Z_{1}$

α(i,j)=p(j)q(j,i)，α(j,i)=p(i)q(i,j)

$Z_{0}, Z_{1}$

(3)p(i)q(i,j)α(i,j)⏟Q'(i,j)=p(j)q(j,i)α(j,i)⏟Q'(j,i)(**)

$Z_{0}, Z_{1}$

在改造 q(i,j)α(i,j)。

马氏链转移和接受概率

假设我们已经有一个转移矩阵Q(对应元素为p(x)的算法。

上述过程中 q(x|y) 就是任意一个连续二元概率分布对应的条件分布。

以上的 MCMC 采样算法已经能很漂亮的工作了，不过它有一个小的问题：马氏链p(x)的速度太慢。有没有办法提升一些接受率呢?

假设 α(i,j)=0.1,α(j,i)=0.2, 此时满足细致平稳条件，于是

p(i)q(i,j)\times0.1=p(j)q(j,i)\times0.2

$Z_{0}, Z_{1}$

p(i)q(i,j)\times0.5=p(j)q(j,i)\times1

$Z_{0}, Z_{1}$

α(i,j)=min{p(j)q(j,i)p(i)q(i,j),1}

$Z_{0}, Z_{1}$

对于分布 Q′ 使其满足细致平稳条件

p(x)Q'(x\toy)=p(y)Q'(y\tox)

$Z_{0}, Z_{1}$

p(x)Q'(x\toy)=p(y)Q'(y\tox)

$Z_{0}, Z_{1}$

3.2 Gibbs Sampling

对于高维的情形，由于接受率 A(x1,y1),B(x1,y2)，我们发现

p(x1,y1)p(y2|x1)=p(x1)p(y1|x1)p(y2|x1)p(x1,y2)p(y1|x1)=p(x1)p(y2|x1)p(y1|x1)

$Z_{0}, Z_{1}$

(4)p(x1,y1)p(y2|x1)=p(x1,y2)p(y1|x1)(***)

$Z_{0}, Z_{1}$

p(A)p(y2|x1)=p(B)p(y1|x1)

$Z_{0}, Z_{1}$

p(A)p(x2|y1)=p(C)p(x1|y1).

平面上马氏链转移矩阵的构造

于是我们可以如下构造平面上任意两点之间的转移概率矩阵Q

Q(A\toB)=p(yB|x1)如果xA=xB=x1Q(A\toC)=p(xC|y1)如果yA=yC=y1Q(A\toD)=0其它

有了如上的转移矩阵 Q, 我们很容易验证对平面上任意两点 X,Y, 满足细致平稳条件

p(X)Q(X\toY)=p(Y)Q(Y\toX)

$Z_{0}, Z_{1}$

Gibbs Sampling 算法中的马氏链转移

以上采样过程中，如图所示，马氏链的转移只是轮换的沿着坐标轴 y轴之间随机的选一个坐标轴，然后按条件概率做转移，马氏链也是一样收敛的。轮换两个坐标轴只是一种方便的形式。

以上的过程我们很容易推广到高维的情形，对于(***) 式，如果x1，可以看出推导过程不变，所以细致平稳条件同样是成立的

(5)p(x1,y1)p(y2|x1)=p(x1,y2)p(y1|x1)

$Z_{0}, Z_{1}$

如果当前状态为p(xi|x1,⋯,xi−1,xi+1,⋯,xn) 定义；
其它无法沿着单根坐标轴进行的跳转，转移概率都设置为 0。

于是我们可以把Gibbs Smapling 算法从采样二维的 p(x1,x2,⋯,xn)

以上算法收敛后，得到的就是概率分布t，在一根固定的坐标轴上转移的概率是1。