贝叶斯推断

贝叶斯模型观点:参数模型q(x;θ) 中的参数 θ被确定的变量(deterministic variable)。

贝叶斯预测分布

训练样本是 D={xi}i=1n ,p(θ|D) 是给定训练样本 D 的条件下参数 θ 的后验概率(posterior probability of parameter θ) , p(θ) 是未观测到训练样本 D 时, θ 的先验概率(prior propability).

  • 有似然(likelihood):
    (1)p(D|θ)=i=1nq(xi|θ)

    其中参数模型 q(x|θ) 作为条件概率。

[注:因为参数被确定,即认为是已知条件,所以模型是条件概率的形式]。

  • 有联合概率:
    (2)p(D,θ)=p(D|θ)p(θ)
  • 参数 D 的边缘分布:

    (3)p(D)=p(D,θ)dθ

    带入得:
    (4)p(D)=(i=1nq(xi|θ))p(θ)dθ

  • 贝叶斯推断的解(Bayesian predictive distribution)
    P^(Bayes)(x) ,是参数模型
    q(x|θ) 在整个后验分布 p(θ|D) 上的期望:

    (5)P^(Bayes)(x)=q(x|θ)p(θ|D)dθ

  • 由贝叶斯定理:

    (2)p(θ|D)=p(D|θ)p(θ)p(D)(6)=i=1nq(xi|θ)p(θ)i=1nq(xi|θ)p(θ)dθ

我的理解:分子的 θ 与分母的 θ 区别开来是因为分母的θ 要做积分运算。

最后得到:

(7)P^(Bayes)(x)=q(x|θ)i=1nq(xi|θ)p(θ)i=1nq(xi|θ)p(θ)dθdθ

Bayes VS MLE

如图:
贝叶斯推断

  • 参数模型 q(x|θ) 是一个概率密度函数族,实践中,由于误差等因素可能真实数据分布p(x) 并不包含在参数模型中,如图,数据真实分布 p(x) 在右侧;
  • MLE找到的最大似然 P^ML(x) 等价于利用KL散度(empirical KL divergence) 去找到 p(x) 在参数模型 q(x|θ) 上的映射。
  • 贝叶斯推断的 P^(Bayes)(x) 并不限制在参数模型函数族上,如图,它比MLE的估计更接近真实分布 p(x)

  • 贝叶斯推断和MLE根本的不同在于参数 θ 是确定的参数还是随机变量;更抽象的,先验概率 p(x) 在贝叶斯推断下有主观知识(subjective),这可以影响所求的解。另一方面,MLE是客观(objective)的,它的解完全由数据(data)来决定。

  • *

计算问题

由于参数 θ 的维度过高,会导致以下的公式计算困难:

(*)P^(Bayes)(x)=q(x|θ)p(θ|D)dθ

(**)P^(Bayes)(x)=q(x|θ)i=1nq(xi|θ)p(θ)i=1nq(xi|θ)p(θ)dθdθ

解决办法:

  1. 分析地得到后验概率 p(θ|D) 一种方法是选择先验概率 p(θ),从而显式地得到后验概率 p(θ|D) 的参数形式。
  2. 使用从后验概率中 p(θ|D) 提取的点 θ^ 去近似。
    参考:《统计机器学习导论》

相关文章: