LDA基础知识系列 ---- (2)Dirichlet 分布

本节将从Beta分布出发，水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭，对称Dirichlet 分布的相关内容。

理解LDA，可以分为下述5个步骤：
一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA
一个采样：Gibbs采样

上节 LDA基础知识系列 —-共轭先验分布(1)以简单明了的叙述方式，讲述先验概率、似然函数、后验概率、同分布，Beta-Binomial共轭等共轭先验分布内容，对必要的推导，讲述其注意事项，以免跳“坑”。

本节将从Beta分布出发，水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭，对称Dirichlet 分布。

本节内容

Dirichlet 分布
Dirichlet 分布和LDA的关系。
Dirichlet-Multinomial共轭
对称Dirichlet 分布

Dirichlet 分布

本小节理解2—>K的推广，那所有的神马将都是水到渠成。come on !2018新年的第一天！
二项分布—>多项分布
Beta分布—>Dirichlet 分布

二项分布往多维推广是多项分布，Beta分布向多维推广是Dirichlet 分布，接下来让我们见证着神奇的转变。
Beta分布概率密度函数：

1 B (α 1, α 2) P 1 α 1 - 1 P 2 α 2 - 1

(P 1 + P 2 = 1)

若仍利用相同表述形式（注意实际上Beta没有这种表述方式，只是为了方便大家理解）：
Dirichlet分布概率密度函数：

1 B (α 1, α 2, α 3, \dots α k) P 1 α 1 - 1 P 2 α 2 - 1 P 3 α 3 - 1 . . . P k α k - 1

(P 1 + P 2 + P 3 + \dots P k = 1)

正式的表达形式：
Beta分布：

f (x) = ⎧ ⎩ ⎨ 1 B (α, β) x α - 1 (1 - x) β - 1, x \in [0, 1] 0, o t h e r

其中，B(α,β)=∫10xα−1(1−x)β−1dx=Γ(α)Γ(β)Γ(α+β)
Dirichlet分布：

f (p \to | α \to) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1 Δ (α \to) Π K k = 1 p α k - 1 k, p k \in [0, 1] 0, o t h e r

简记：Dir(p⃗ |α⃗ )=1Δ(α→)ΠKk=1pαk−1k，其中Δ(α⃗ )=ΠKk=1Γ(αk)Γ(ΣKk=1αk) 。

Dirichlet-Multionmial共轭

我们可以发现Dirichlet分布，是beta分布在高维度上的推广。
Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙。

二项分布—>多项分布
Beta分布—>Dirichlet 分布

哇塞，我们就直观的推出LDA中的共轭先验喽。Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

对称 Dirichlet 分布

Dirichlet 分布：Dir(p⃗ |α⃗ )=1Δ(α→)ΠKk=1pαk−1k
α是参数向量，共K个
定义在x1,x2…xK-1维上

x1+x2+…+xK-1+xK=1
x1,x2…xK-1>0
有一个问题呀，α的取值对Dir(p|α)有什么影响？

我们使用对称对称 Dirichlet 分布来讲述参数的对分布的影响。
在使用中，可以对少数目参数进行人为指定，但是在LDA中会涉及到很多个主题，很多个词，在进行高维的建模时，怎么对这么多α进行取值呢，同时，我们又没有更多的先验知识来确定哪一个α更重要，那怎么办呢？
公平起见，那就用同一个α，一个k来表征，也就是说把每个组的超参数选作一样，这就是对称 Dirichlet 分布。简记：

D i r (p ⃗ | α ⃗) = 1 Δ k (α \to) Π K k = 1 p α - 1 k ， 其 中 Δ k (α ⃗) = Γ K (α k) Γ (K α k)

对称Dirichlet分布的参数分析

LDA基础知识系列 ---- (2)Dirichlet 分布 (https://en.wikipedia.org/wiki/Dirichlet_distribution#/media/File:LogDirichletDensity-alpha_0.3_to_alpha_2.0.gif)，下面为截图
- 当α=1时，退化为均匀分布
-
- 当α>1时，p1=p2=…=pk的概率增大
-
-
- 当α<1时，pi=1，p非i=0的概率增大
- LDA基础知识系列 ---- (2)Dirichlet 分布
（这里pi、p非i的意思是只有一个维度上的p为1）
图像说明：将Dirichlet分布的概率密度函数取对数,绘制对称Dirichlet分布的图像，取K=3，也就是有两个独立参数x1,x2，分别对应图中的两个坐标轴，第三个参数始终满足x3=1-x1-x2 且α1=α2=α3=α。
举例说明，在这里对应到LDA中呢？
当α<1时，pi=1，p非i=0的概率增大，的意思就是文档属于某一个主题的概率很大，接近于1，属于其他主题的概率就很小，接近于0，这样就是它心有所属。
当α>1时，p1=p2=…=pk的概率增大，的意思就是文档没有偏好，属于每个主题分类的概率都很接近，都随便，天哪，这样不利于找到真爱。

上一篇博客介绍的是LDA基础知识系列 ——共轭先验的知识http://blog.csdn.net/m0_37788308/article/details/78935021
这篇介绍的是LDA 基础知识系列 —- Dirichlet 分布(2)，涉及到了Dirichlet 分布的来由以及Dirichlet-Multionmial共轭等知识喽。
下一篇，进入Gibbs采样大闯关，随后LDA 实战篇将为你奔腾而来。

你Get到了吗，有问题，在评论区提问呀。