贝叶斯推断
贝叶斯模型观点:参数模型q(x;θ) 中的参数 θ 是被确定的变量(deterministic variable)。
贝叶斯预测分布
训练样本是 D={xi}ni=1 ,p(θ|D) 是给定训练样本 D 的条件下参数 θ 的后验概率(posterior probability of parameter θ) , p(θ) 是未观测到训练样本 D 时, θ 的先验概率(prior propability).
[注:因为参数被确定,即认为是已知条件,所以模型是条件概率的形式]。
- 有联合概率:
p(D,θ)=p(D|θ)p(θ)(2)
-
参数 D 的边缘分布:
p(D)=∫p(D,θ)dθ(3)
带入得:
p(D)=∫(∏i=1nq(xi|θ))p(θ)dθ(4)
-
贝叶斯推断的解(Bayesian predictive distribution)
P^(Bayes)(x) ,是参数模型
q(x|θ) 在整个后验分布 p(θ|D) 上的期望:
P^(Bayes)(x)=∫q(x|θ)p(θ|D)dθ(5)
-
由贝叶斯定理:
p(θ|D)=p(D|θ)p(θ)p(D)=∏ni=1q(xi|θ)p(θ)∫∏ni=1q(xi|θ′)p(θ′)dθ′(2)(6)
我的理解:分子的 θ 与分母的 θ′ 区别开来是因为分母的θ′ 要做积分运算。
最后得到:
P^(Bayes)(x)=∫q(x|θ)∏ni=1q(xi|θ)p(θ)∫∏ni=1q(xi|θ′)p(θ′)dθ′dθ(7)
Bayes VS MLE
如图:

- 参数模型 q(x|θ) 是一个概率密度函数族,实践中,由于误差等因素可能真实数据分布p(x) 并不包含在参数模型中,如图,数据真实分布 p(x) 在右侧;
- MLE找到的最大似然 P^ML(x) 等价于利用KL散度(empirical KL divergence) 去找到 p(x) 在参数模型 q(x|θ) 上的映射。
贝叶斯推断的 P^(Bayes)(x) 并不限制在参数模型函数族上,如图,它比MLE的估计更接近真实分布 p(x)。
贝叶斯推断和MLE根本的不同在于参数 θ 是确定的参数还是随机变量;更抽象的,先验概率 p(x) 在贝叶斯推断下有主观知识(subjective),这可以影响所求的解。另一方面,MLE是客观(objective)的,它的解完全由数据(data)来决定。
*
计算问题
由于参数 θ 的维度过高,会导致以下的公式计算困难:
P^(Bayes)(x)=∫q(x|θ)p(θ|D)dθ(*)
P^(Bayes)(x)=∫q(x|θ)∏ni=1q(xi|θ)p(θ)∫∏ni=1q(xi|θ′)p(θ′)dθ′dθ(**)
解决办法:
- 分析地得到后验概率 p(θ|D) 一种方法是选择先验概率 p(θ),从而显式地得到后验概率 p(θ|D) 的参数形式。
- 使用从后验概率中 p(θ|D) 提取的点 θ^ 去近似。
参考:《统计机器学习导论》