本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布的相关内容。

  理解LDA,可以分为下述5个步骤:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA
一个采样:Gibbs采样

  上节 LDA基础知识系列 —-共轭先验分布(1)以简单明了的叙述方式,讲述先验概率、似然函数、后验概率、同分布,Beta-Binomial共轭等共轭先验分布内容,对必要的推导,讲述其注意事项,以免跳“坑”。

  本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布。

本节内容

  • Dirichlet 分布
  • Dirichlet 分布和LDA的关系。
  • Dirichlet-Multinomial共轭
  • 对称Dirichlet 分布

Dirichlet 分布

  本小节理解2—>K的推广,那所有的神马将都是水到渠成。come on !2018新年的第一天!
  二项分布—>多项分布
  Beta分布—>Dirichlet 分布

  二项分布往多维推广是多项分布,Beta分布向多维推广是Dirichlet 分布,接下来让我们见证着神奇的转变。
Beta分布概率密度函数:

1B(α1,α2)P1α11P2α21

( P1+P2=1)

  若仍利用相同表述形式(注意实际上Beta没有这种表述方式,只是为了方便大家理解):
Dirichlet分布概率密度函数:
1B(α1,α2,α3,αk)P1α11P2α21P3α31...Pkαk1

(P1+P2  P3+Pk=1)

正式的表达形式:
Beta分布:
f(x)=1B(α,β)xα1(1x)β1,x[0,1]0,other

其中,B(α,β)=10xα1(1x)β1dx=Γ(α)Γ(β)Γ(α+β)
Dirichlet分布:
f(p|α)=1Δ(α)ΠKk=1pαk1k,pk[0,1]0,other
简记:Dir(p⃗ |α⃗ )=1Δ(α)ΠKk=1pαk1k,其中Δ(α⃗ )=ΠKk=1Γ(αk)Γ(ΣKk=1αk)

Dirichlet-Multionmial共轭

  我们可以发现Dirichlet分布,是beta分布在高维度上的推广。
  Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙。

  • 二项分布—>多项分布
  • Beta分布—>Dirichlet 分布

  哇塞,我们就直观的推出LDA中的共轭先验喽。Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布 。

对称 Dirichlet 分布

Dirichlet 分布:Dir(p⃗ |α⃗ )=1Δ(α)ΠKk=1pαk1k
  α是参数向量,共K个
  定义在x1,x2…xK-1维上

  • x1+x2+…+xK-1+xK=1
  • x1,x2…xK-1>0
    有一个问题呀,α的取值对Dir(p|α)有什么影响?

  我们使用对称对称 Dirichlet 分布来讲述参数的对分布的影响。
  在使用中,可以对少数目参数进行人为指定,但是在LDA中会涉及到很多个主题,很多个词,在进行高维的建模时,怎么对这么多α进行取值呢,同时,我们又没有更多的先验知识来确定哪一个α更重要,那怎么办呢?
  公平起见,那就用同一个α,一个k来表征,也就是说把每个组的超参数选作一样,这就是对称 Dirichlet 分布。简记:

Dir(p⃗ |α⃗ )=1Δk(α)ΠKk=1pα1kΔk(α⃗ )=ΓK(αk)Γ(Kαk)

对称Dirichlet分布的参数分析

LDA基础知识系列 ---- (2)Dirichlet 分布(https://en.wikipedia.org/wiki/Dirichlet_distribution#/media/File:LogDirichletDensity-alpha_0.3_to_alpha_2.0.gif),下面为截图
- 当α=1时,退化为均匀分布
- LDA基础知识系列 ---- (2)Dirichlet 分布
- 当α>1时,p1=p2=…=pk的概率增大
- LDA基础知识系列 ---- (2)Dirichlet 分布
-
- 当α<1时,pi=1,p非i=0的概率增大
- LDA基础知识系列 ---- (2)Dirichlet 分布
(这里pi、p非i的意思是只有一个维度上的p为1)
图像说明:将Dirichlet分布的概率密度函数取 对数,绘制对称Dirichlet分布的图像,取K=3, 也就是有两个独立参数x1,x2,分别对应图中的 两个坐标轴,第三个参数始终满足x3=1-x1-x2 且α1=α2=α3=α。
  举例说明,在这里对应到LDA中呢?
   当α<1时,pi=1,p非i=0的概率增大,的意思就是文档属于某一个主题的概率很大,接近于1,属于其他主题的概率就很小,接近于0,这样就是它心有所属。
   当α>1时,p1=p2=…=pk的概率增大, 的意思就是文档没有偏好,属于每个主题分类的概率都很接近,都随便,天哪,这样不利于找到真爱。

  上一篇博客介绍的是LDA基础知识系列 ——共轭先验的知识http://blog.csdn.net/m0_37788308/article/details/78935021
  这篇介绍的是LDA 基础知识系列 —- Dirichlet 分布(2),涉及到了Dirichlet 分布的来由以及Dirichlet-Multionmial共轭等知识喽。
  下一篇,进入Gibbs采样大闯关,随后LDA 实战篇将为你奔腾而来。

  你Get到了吗,有问题,在评论区提问呀。

相关文章:

  • 2021-10-14
  • 2021-09-04
  • 2020-03-24
  • 2021-06-28
  • 2021-11-27
  • 2021-06-05
猜你喜欢
  • 2021-10-01
  • 2022-12-23
  • 2022-01-11
  • 2021-11-21
  • 2022-01-21
  • 2021-12-21
相关资源
相似解决方案