- 引言
变分法是用来寻找一个函数使得泛函极大或极小值,可运用在最大熵问题,即寻找一个概率分布,使得该概率分布的熵最大。
假设贝叶斯模型中,x为一组观测变量,z 为隐变量,我们的推断问题为计算条件概率,其中根据贝叶斯公式,条件概率密度可以写为
变分推断是寻找一个简单的分布来近似条件概率密度,这样推断问题转化为一个泛函优化问题
其中Q为候选的概率分布族
这里插入公式推导的必要步骤
所以有
由于不能精确推断,则我们将公式转化为
在变分推断中候选分布族Q的复杂性决定可优化问题的复杂性,我们通常所选择的是平均场分布,即z可以拆分=为多组相互独立的变量。概率密度q(z) 可以分解为
其中 是隐变量的子集,可以是单变量,也可以是一组多元变量
证据下界 可以写为