贝叶斯推断

贝叶斯模型观点：参数模型 $q (x; θ)$ 中的参数 $θ$ 是被确定的变量(deterministic variable)。

贝叶斯预测分布

训练样本是 $D = {x_{i}}_{i = 1}^{n}$ , $p (θ | D)$ 是给定训练样本 $D$ 的条件下参数 $θ$ 的后验概率(posterior probability of parameter $θ$ ) , $p (θ)$ 是未观测到训练样本 $D$ 时， $θ$ 的先验概率(prior propability).

有似然(likelihood)：
$\begin{matrix} (1) & p (D | θ) = \prod_{i = 1}^{n} q (x_{i} | θ) \end{matrix}$
其中参数模型 $q (x | θ)$ 作为条件概率。

[注：因为参数被确定，即认为是已知条件，所以模型是条件概率的形式]。

有联合概率：
$\begin{matrix} (2) & p (D, θ) = p (D | θ) p (θ) \end{matrix}$
参数 $D$ 的边缘分布：
$\begin{matrix} (3) & p (D) = \int p (D, θ) d θ \end{matrix}$
带入得：
$\begin{matrix} (4) & p (D) = \int (\prod_{i = 1}^{n} q (x_{i} | θ)) p (θ) d θ \end{matrix}$
贝叶斯推断的解(Bayesian predictive distribution)
${\hat{P}}_{(B a y e s)} (x)$ ，是参数模型
$q (x | θ)$ 在整个后验分布 $p (θ | D)$ 上的期望：
$\begin{matrix} (5) & {\hat{P}}_{(B a y e s)} (x) = \int q (x | θ) p (θ | D) d θ \end{matrix}$
由贝叶斯定理：
$\begin{aligned} (2) & p (θ | D) & = \frac{p (D | θ) p (θ)}{p (D)} \\ (6) & = \frac{\prod_{i = 1}^{n} q (x_{i} | θ) p (θ)}{\int \prod_{i = 1}^{n} q (x_{i} | θ^{^{'}}) p (θ^{^{'}}) d θ^{^{'}}} \end{aligned}$

我的理解：分子的 $θ$ 与分母的 $θ^{^{'}}$ 区别开来是因为分母的 $θ^{^{'}}$ 要做积分运算。

最后得到：

\begin{matrix} (7) & {\hat{P}}_{(B a y e s)} (x) = \int q (x | θ) \frac{\prod_{i = 1}^{n} q (x_{i} | θ) p (θ)}{\int \prod_{i = 1}^{n} q (x_{i} | θ^{^{'}}) p (θ^{^{'}}) d θ^{^{'}}} d θ \end{matrix}

Bayes VS MLE

如图：
贝叶斯推断

参数模型 $q (x | θ)$ 是一个概率密度函数族，实践中，由于误差等因素可能真实数据分布 $p (x)$ 并不包含在参数模型中，如图，数据真实分布 $p (x)$ 在右侧；
MLE找到的最大似然 ${\hat{P}}_{M L} (x)$ 等价于利用KL散度(empirical KL divergence) 去找到 $p (x)$ 在参数模型 $q (x | θ)$ 上的映射。
贝叶斯推断的 ${\hat{P}}_{(B a y e s)} (x)$ 并不限制在参数模型函数族上，如图，它比MLE的估计更接近真实分布 $p (x)$ 。
贝叶斯推断和MLE根本的不同在于参数 $θ$ 是确定的参数还是随机变量；更抽象的，先验概率 $p (x)$ 在贝叶斯推断下有主观知识(subjective)，这可以影响所求的解。另一方面，MLE是客观(objective)的，它的解完全由数据(data)来决定。

计算问题

由于参数 $θ$ 的维度过高，会导致以下的公式计算困难：

\begin{matrix} (*) & {\hat{P}}_{(B a y e s)} (x) = \int q (x | θ) p (θ | D) d θ \end{matrix}

\begin{matrix} (**) & {\hat{P}}_{(B a y e s)} (x) = \int q (x | θ) \frac{\prod_{i = 1}^{n} q (x_{i} | θ) p (θ)}{\int \prod_{i = 1}^{n} q (x_{i} | θ^{^{'}}) p (θ^{^{'}}) d θ^{^{'}}} d θ \end{matrix}

解决办法：

分析地得到后验概率 $p (θ | D)$ 一种方法是选择先验概率 p(θ)，从而显式地得到后验概率 $p (θ | D)$ 的参数形式。
使用从后验概率中 $p (θ | D)$ 提取的点 $\hat{θ}$ 去近似。
参考：《统计机器学习导论》