Beta 分布

Beta 函数

B ( α , β ) ≜ ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x \Beta(\alpha, \beta) \triangleq \int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx B(α,β)≜∫01xα−1(1−x)β−1dx
其中 α , β > 0 \alpha, \beta > 0 α,β>0

Beta 函数与 Gamma 函数

B ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β ) \Beta(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} B(α,β)=Γ(α+β)Γ(α)Γ(β)
当 α , β ∈ N + \alpha,\beta\in N^+ α,β∈N+ 时，
B ( α , β ) = ( α − 1 ) ! ( β − 1 ) ! ( α + β − 1 ) ! \Beta(\alpha, \beta) = \frac{(\alpha-1)!(\beta-1)!}{(\alpha+\beta-1)!} B(α,β)=(α+β−1)!(α−1)!(β−1)!

f ( x ; α , β ) ≜ 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha, \beta) \triangleq \frac{1}{\Beta(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)≜B(α,β)1xα−1(1−x)β−1
为定义在 [ 0 , 1 ] [0,1] [0,1]上的 Beta分布的概率密度函数，显然
∫ 0 1 f ( x ; α , β ) d x = 1 \int_0^1 f(x;\alpha, \beta) dx = 1 ∫01f(x;α,β)dx=1

Beta 分布的期望

∫ 0 1 x f ( x ; α , β ) d x = ∫ 0 1 1 B ( α , β ) x α ( 1 − x ) β − 1 d x = 1 B ( α , β ) ∫ 0 1 x α + 1 − 1 ( 1 − x ) β − 1 d x = B ( α + 1 , β ) B ( α , β ) = Γ ( α + 1 ) Γ ( β ) Γ ( α + 1 + β ) Γ ( α + β ) Γ ( α ) Γ ( β ) = α α + β \begin{aligned} \int_0^1 xf(x;\alpha, \beta) dx &=\int_0^1 \frac{1}{\Beta(\alpha, \beta)} x^{\alpha}(1-x)^{\beta-1}dx \\\\ &=\frac{1}{\Beta(\alpha, \beta)} \int_0^1 x^{\alpha+1-1}(1-x)^{\beta-1}dx \\\\ &=\frac{\Beta(\alpha+1, \beta)}{\Beta(\alpha, \beta)} \\\\ &= \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+1+\beta)}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \\\\ &= \frac{\alpha}{\alpha+\beta} \end{aligned} ∫01xf(x;α,β)dx=∫01B(α,β)1xα(1−x)β−1dx=B(α,β)1∫01xα+1−1(1−x)β−1dx=B(α,β)B(α+1,β)=Γ(α+1+β)Γ(α+1)Γ(β)Γ(α)Γ(β)Γ(α+β)=α+βα

Beta-Binomial 共轭

假定二项分布 B ( n , p ) B(n, p) B(n,p) 的参数 p p p 服从 B e t a ( p ; α , β ) Beta(p;\alpha,\beta) Beta(p;α,β) 先验分布
p ∼ B e t a ( p ; α , β ) = 1 B ( α , β ) p α − 1 ( 1 − p ) β − 1 p \sim Beta(p;\alpha,\beta) = \frac{1}{\Beta(\alpha, \beta)} p^{\alpha-1}(1-p)^{\beta-1} p∼Beta(p;α,β)=B(α,β)1pα−1(1−p)β−1
然后又做了 n 1 + n 2 n_1 + n_2 n1+n2 次伯努利实验(记为 W W W)，成功 n 1 n_1 n1 次，失败 n 2 n_2 n2 次，于是后验分布为
P ( p ∣ W ) = P ( p , W ) P ( W ) = P ( W ∣ p ) P ( p ) ∫ 0 1 P ( W ∣ p ) P ( p ) d p = ( n 1 + n 2 n 1 ) p n 1 ( 1 − p ) n 2 1 B ( α , β ) p α − 1 ( 1 − p ) β − 1 ∫ 0 1 ( n 1 + n 2 n 1 ) p n 1 ( 1 − p ) n 2 1 B ( α , β ) p α − 1 ( 1 − p ) β − 1 d p = p n 1 + α − 1 ( 1 − p ) n 2 + β − 1 ∫ 0 1 p n 1 + α − 1 ( 1 − p ) n 2 + β − 1 d p = p n 1 + α − 1 ( 1 − p ) n 2 + β − 1 B ( n 1 + α , n 2 + β ) \begin{aligned} P(p|W) &= \frac{P(p,W)}{P(W)} \\\\ &= \frac{P(W|p)P(p)}{\int_0^1P(W|p)P(p)dp} \\\\ &= \frac{\dbinom{n_1+n_2}{n_1}p^{n_1}(1-p)^{n_2} \frac{1}{\Beta(\alpha, \beta)} p^{\alpha-1}(1-p)^{\beta-1}}{\int_0^1\dbinom{n_1+n_2}{n_1}p^{n_1}(1-p)^{n_2}\frac{1}{\Beta(\alpha, \beta)} p^{\alpha-1}(1-p)^{\beta-1}dp} \\\\ &= \frac{ p^{n_1+\alpha-1}(1-p)^{n_2+\beta-1}}{\int_0^1 p^{n_1+\alpha-1}(1-p)^{n_2+\beta-1}dp} \\\\ &= \frac{ p^{n_1+\alpha-1}(1-p)^{n_2+\beta-1}}{\Beta(n_1+\alpha, n_2 + \beta)} \\\\ \end{aligned} P(p∣W)=P(W)P(p,W)=∫01P(W∣p)P(p)dpP(W∣p)P(p)=∫01(n1n1+n2)pn1(1−p)n2B(α,β)1pα−1(1−p)β−1dp(n1n1+n2)pn1(1−p)n2B(α,β)1pα−1(1−p)β−1=∫01pn1+α−1(1−p)n2+β−1dppn1+α−1(1−p)n2+β−1=B(n1+α,n2+β)pn1+α−1(1−p)n2+β−1即服从 B e t a ( n 1 + α , n 2 + β ) Beta(n_1+\alpha, n_2 + \beta) Beta(n1+α,n2+β) 分布！

简而言之：
B e t a ( α , β ) + B i n o m C o u n t ( n 1 ， n 2 ) = B e t a ( n 1 + α , n 2 + β ) Beta(\alpha, \beta) + BinomCount(n_1， n_2) = Beta(n_1+\alpha, n_2 + \beta) Beta(α,β)+BinomCount(n1，n2)=Beta(n1+α,n2+β)

Beta 分布是二项分布的共轭先验， α \alpha α 和 β \beta β 可以分别看成伯努利试验中成功和失败的次数，而 B e t a ( p ; α , β ) Beta(p;\alpha, \beta) Beta(p;α,β)就是对伯努利试验中成功概率 p p p 的概率密度函数。

上图中的蓝色虚线对应 p = 0.25 p = 0.25 p=0.25，是 Beta(2,6) 和 Beta(10,30) 的期望值，即：
0.25 = 2 2 + 6 = 10 10 + 30 0.25 = \frac{2}{2+6} = \frac{10}{10+30} 0.25=2+62=10+3010
但是可以明显看出 Beta(10,30) 的概率密度曲线要比 Beta(2,6)更尖锐，说明当实验次数越多时，对 p = 0.25 p = 0.25 p=0.25 的信念越强！