http://cos.name/2013/01/lda-math-beta-dirichlet/#more-6953

 

2. 认识Beta/Dirichlet分布
2.1 魔鬼的游戏—认识Beta 分布

统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了,撒旦说:“你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。”你应该怎么猜呢?

从数学的角度抽象一下,上面这个游戏其实是在说随机变量

对于不喜欢数学的同学而言,估计每个概率分布都是一个恶魔,那在概率统计学中,均匀分布应该算得上是潘多拉魔盒,几乎所有重要的概率分布都可以从均匀分布)中生成出来;尤其是在统计模拟中,所有统计分布的随机样本都是通过均匀分布产生的。

LDA-math-认识Beta/Dirichlet分布潘多拉魔盒Uniform(0,1)

对于上面的游戏而言 ] 的概率,也就是求如下概率值

?

 

把 [0,1] 区间分成三段 E

 

}

 

LDA-math-认识Beta/Dirichlet分布

件 E

则有

)

 

)个。

继续考虑稍微复杂一点情形,假设]

 

}

 

LDA-math-认识Beta/Dirichlet分布

事件E’

则有

)


从以上分析我们很容易看出,只要落在)。于是

)


所以,可以得到)
的概率密度函数为

]


利用Gamma 函数,我们可以把 )
 表达为

k

 

还记得神奇的 Gamma 函数可以把很多数学概念从整数集合延拓到实数集合吧。我们在上式中取1, 于是我们得到

(1)


这个就是一般意义上的 Beta 分布!可以证明,在β
取非负实数的时候,这个概率密度函数也都是良定义的。

 

好,我们回到魔鬼的游戏,这7这个具体的实例中,我们按照如下密度分布的峰值去猜测才是最有把握的。

]

 

然而即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个[0,1]之间的随机数,然后我可以告诉你这5个数中的每一个和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢?

2.2 Beta-Binomial 共轭

魔鬼的第二个题目,数学上形式化一下,就是

  1. )
  2. p大;
  3. 问 ) 的分布是什么。

由于)。按照贝叶斯推理的逻辑,我们把以上过程整理如下:

  1. p 的先验分布;
  2. 数据)
  3. 在给定了来自数据提供的)

LDA-math-认识Beta/Dirichlet分布贝努利实验

我们知道贝叶斯参数估计的基本过程是

先验分布 + 数据的知识 = 后验分布

以上贝叶斯分析过程的简单直观的表述就是

)


其中 β
,我们有如下关系

(2)


这个式子实际上描述的就是  Beta-Binomial 共轭,此处共轭的意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta 分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

 

而我们从以上过程可以看到,Beta 分布中的参数)写成下式来理解

)


其中 )
 恰好就是均匀分布Uniform(0,1)。

 

对于(***) 式,我们其实也可以纯粹从贝叶斯的角度来进行推导和理解。 假设有一个不均匀的硬币抛出正面的概率为p 的后验分布

t


计算得到的后验分布正好是 )

 

LDA-math-认识Beta/Dirichlet分布

百变星君Beta分布

Beta 分布的概率密度我们把它画成图,会发现它是个百变星君,它可以是凹的、凸的、单调上升的、单调下降的;可以是曲线也可以是直线,而均匀分布也是特殊的Beta分布。由于Beta 分布能够拟合如此之多的形状,因此它在统计数据拟合中被广泛使用。

在上一个小节中,我们从二项分布推导Gamma 分布的时候,使用了如下的等式

(3)


现在大家可以看到,左边是二项分布的概率累积,右边实际上是)
 分布的概率积分。这个式子在上一小节中并没有给出证明,下面我们利用和魔鬼的游戏类似的概率物理过程进行证明。

 

我们可以如下构造二项分布,取随机变量 )

LDA-math-认识Beta/Dirichlet分布

贝努利实验最多成功k

显然我们有如下式子成立

 

)

 

此处), 于是

t

 

最后我们再回到魔鬼的游戏,如果你按出的5个随机数字中,魔鬼告诉你有2个小于它手中第7大的数,那么你应该
按照如下概率分布的峰值做猜测是最好的

]

 

很幸运的,你这次猜中了,魔鬼开始甩赖了:这个游戏对你来说太简单了,我要加大点难度,我们重新来一次,我按魔盒20下生成20个随机数,你同时给我猜第7大和第13大的数是什么,这时候应该如何猜测呢?

2.3 Dirichlet-Multinomial 共轭

对于魔鬼变本加厉的新的游戏规则,数学形式化如下:

  1. )
  2. 排序后对应的顺序统计量 ),
  3. 问 )的联合分布是什么;

游戏3

完全类似于第一个游戏的推导过程,我们可以进行如下的概率计算(为了数学公式的简洁对称,我们取2是变量)

LDA-math-认识Beta/Dirichlet分布

)的联合分布推导

 

相关文章: