本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布的相关内容。
理解LDA,可以分为下述5个步骤:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA
一个采样:Gibbs采样
上节 LDA基础知识系列 —-共轭先验分布(1)以简单明了的叙述方式,讲述先验概率、似然函数、后验概率、同分布,Beta-Binomial共轭等共轭先验分布内容,对必要的推导,讲述其注意事项,以免跳“坑”。
本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布。
本节内容
- Dirichlet 分布
- Dirichlet 分布和LDA的关系。
- Dirichlet-Multinomial共轭
- 对称Dirichlet 分布
Dirichlet 分布
本小节理解2—>K的推广,那所有的神马将都是水到渠成。come on !2018新年的第一天!
二项分布—>多项分布
Beta分布—>Dirichlet 分布
二项分布往多维推广是多项分布,Beta分布向多维推广是Dirichlet 分布,接下来让我们见证着神奇的转变。
Beta分布概率密度函数:
若仍利用相同表述形式(注意实际上Beta没有这种表述方式,只是为了方便大家理解):
Dirichlet分布概率密度函数:
正式的表达形式:
Beta分布:
其中,
Dirichlet分布:
Dirichlet-Multionmial共轭
我们可以发现Dirichlet分布,是beta分布在高维度上的推广。
Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙。
- 二项分布—>多项分布
- Beta分布—>Dirichlet 分布
哇塞,我们就直观的推出LDA中的共轭先验喽。Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布 。
对称 Dirichlet 分布
Dirichlet 分布:
α是参数向量,共K个
定义在x1,x2…xK-1维上
- x1+x2+…+xK-1+xK=1
- x1,x2…xK-1>0
有一个问题呀,α的取值对Dir(p|α)有什么影响?
我们使用对称对称 Dirichlet 分布来讲述参数的对分布的影响。
在使用中,可以对少数目参数进行人为指定,但是在LDA中会涉及到很多个主题,很多个词,在进行高维的建模时,怎么对这么多
公平起见,那就用同一个
对称Dirichlet分布的参数分析
(https://en.wikipedia.org/wiki/Dirichlet_distribution#/media/File:LogDirichletDensity-alpha_0.3_to_alpha_2.0.gif),下面为截图
- 当α=1时,退化为均匀分布
-
- 当α>1时,p1=p2=…=pk的概率增大
-
-
- 当α<1时,pi=1,p非i=0的概率增大
-
(这里pi、p非i的意思是只有一个维度上的p为1)
图像说明:将Dirichlet分布的概率密度函数取 对数,绘制对称Dirichlet分布的图像,取K=3, 也就是有两个独立参数x1,x2,分别对应图中的 两个坐标轴,第三个参数始终满足x3=1-x1-x2 且α1=α2=α3=α。
举例说明,在这里对应到LDA中呢?
当α<1时,pi=1,p非i=0的概率增大,的意思就是文档属于某一个主题的概率很大,接近于1,属于其他主题的概率就很小,接近于0,这样就是它心有所属。
当α>1时,p1=p2=…=pk的概率增大, 的意思就是文档没有偏好,属于每个主题分类的概率都很接近,都随便,天哪,这样不利于找到真爱。
上一篇博客介绍的是LDA基础知识系列 ——共轭先验的知识http://blog.csdn.net/m0_37788308/article/details/78935021
这篇介绍的是LDA 基础知识系列 —- Dirichlet 分布(2),涉及到了Dirichlet 分布的来由以及Dirichlet-Multionmial共轭等知识喽。
下一篇,进入Gibbs采样大闯关,随后LDA 实战篇将为你奔腾而来。
你Get到了吗,有问题,在评论区提问呀。