Variational Inference

引言
变分法是用来寻找一个函数 $f(x)$ 使得泛函 $F(f(x))$ 极大或极小值，可运用在最大熵问题，即寻找一个概率分布，使得该概率分布的熵最大。

假设贝叶斯模型中，x为一组观测变量，z 为隐变量，我们的推断问题为计算条件概率 $p(z|x)$ ,其中根据贝叶斯公式，条件概率密度 $p(z|x)$ 可以写为
Variational Inference

变分推断是寻找一个简单的分布 $q^*(z)$ 来近似条件概率密度 $p(z|x)$ ，这样推断问题转化为一个泛函优化问题
Variational Inference
其中Q为候选的概率分布族

这里插入公式推导的必要步骤 Variational Inference

所以有
Variational Inference

由于 $p(z|x)$ 不能精确推断，则我们将公式转化为
Variational Inference
在变分推断中候选分布族Q的复杂性决定可优化问题的复杂性，我们通常所选择的是平均场分布，即z可以拆分=为多组相互独立的变量。概率密度q(z) 可以分解为
其中 $z_m$ 是隐变量的子集，可以是单变量，也可以是一组多元变量
证据下界 $ELBO(q, x)$ 可以写为 Variational Inference