【原理】变分自编码器

VAE是一种隐变量模型

隐变量模型

广义上的隐变量主要就是指“不能被直接观察到，但是对系统的状态和能观察到的输出存在影响的一种东西”。
隐变量(latent variable)代表了隐因子(latent factor)的组合关系。

已知： 数据集 $D_X$ ，其中每个点都属于空间 $X_S$ 。隐变量 $Z∈Z_S$ 。
假设： 有两个变量， $z∈Z_S$ 和 $x∈X_S$ 。存在一个确定性函数族 $f(z;θ)$ ，族中的每个函数由 $\theta\in\Theta$ 唯一确定， $f:Z_S×Θ→X_S$ 。当 $θ$ 固定、 $z$ 是一个概率密度函数为 $P_z(z)$ 的随机变量时， $f(z;θ)$ 就是定义在 $X_S$ 上的随机变量 $x$ ，对应的概率密度函数可以写成 $g(x)$ 。
目标： 优化 $θ$ ，从而寻找到一个 $f$ ，它是随机变量 $x$ 的采样、和 $X$ 非常的像。
注意：
(1) $x$ 是一个变量, $D_X$ 是已知的数据集， $x\notin D_X$ 。
(2) $f$ 把隐变量 $z$ 映射成 $x$ 变量，而 $x$ 变量就是与数据集 $D_X$ 具有直接关系的随机变量，这个直接关系可以表示成 $P_x(D_X|x)$ 。则数据集为 $D_X$ 存在的概率 $P_t(D_X)=∫P_x(D_X|x)g(x)dx$ 。

根据贝叶斯公式：
$(1)~P_t(D_X)=∫P_{xz}(D_X|z;θ)P_z(z)dz$
其中， $P_{xz}(D_X|z;θ)$ 是新定义的概率密度函数，替换 $P_t(D_X)$ 中的 $P_x(D_X|x)g(x)$ ，从而表示 $z$ 与 $D_X$ 的关系。
假定 $P_{xz}$ 是服从高斯分布的概率密度函数，即 $P_{xz}(D_X|z;θ)=N(D_X|f(x;θ),σ^2I)$
注意， $z$ 的分布是未知的。

由于隐变量 $Z$ 的分布是未知的，因此VAE首先假设其服从高斯分布，然后使用多层神经网络来进行逼近 $Z$ （即 $f(z;θ)$ 是一个多层神经网络）。因此，多层的神经网络前些层是逼近 $Z$ ，后些层是 $Z→X$ 映射。

上述内容整理自ran337287的博客，可点击进入文章

高斯混合模型（GMM）

GMM是传统的隐变量模型，为多个高斯分布的混合，其密度函数为多个高斯密度函数的加权组合，用EM算法求解。
隐变量Z表示样本属于哪个高斯分布，Z为离散的随机变量 $Z\sim Categorical~distribution$

求解GMM的EM算法过程：
$logP(x)=ELBO+KL(q_\phi(Z|X)||P_\theta(Z|X))$
E-step：
当 $q=P_\theta(Z|X)时，KL=0$
则 $arg\underset{\theta}{max}P(x)=argmaxELBO$
∴Expectation是ELBO
M-step：
$\theta=arg\underset{\theta}{max}ELBO\\~~~~~~=arg\underset{\theta}{max}E_{P_\theta(Z|X)}[log_\theta P(X,Z)]$

这一步留坑，下次完善

VAE概述

VAE是无限个高斯分布的混合。

示意图

【原理】变分自编码器

模型描述

假设Z是连续、高维的属于高斯分布的随机变量，则：
$（2）\begin{cases}Z\sim N(0,I)~~ \\X|Z\sim N(\mu_\theta(Z), \Sigma_\theta(Z)) \end{cases}$

上式假设 $Z$ 服从标准的高斯分布。类似先验。但是我们更关注的是后验 $P_\theta(Z|X)$ 以辅助建模。
上式假设 $X|Z$ 为连续变量，将要用多层神经网络去逼近得到。如果假设为离散变量，则 $X|Z\sim Categorical~distribution$ 。

模型：
$（3）P_\theta(X)=\int_ZP_\theta(X,Z)dZ\\~~~~~~~~~~~~~~~~~~~~~~=\int_ZP_\theta(Z)P_\theta(X|Z)dZ$
∵ $Z$ 是高维的
∴无法通过积分得到结果
∴ $P(X)$ 是intractable
∴后验概率 $P_\theta(Z|X)=\frac{P_\theta(Z)P_\theta(X|Z)}{P_\theta(X)}$ 是intractable
∴求 $\theta$ 要先解决后验概率 $P_\theta(Z|X)$

模型求解

假设 $\begin{cases}P(Z)=N(0,I)\\P_\theta(X|Z)=N(\mu_\theta|Z,\Sigma_\theta(Z))\end{cases}\\∵P_\theta(Z|X)~is~intractable\\∴q_\Phi(Z|X)\xRightarrow{逼近}P_\theta(Z|X)$

$P_\theta(Z|X)$ is intractable，因此不能用EM算法求解。因为EM算法的先决条件是 $q=P_\theta(Z|X)$

假设 $\theta$ 已经求出来了，即Model已经训练好了。生成样本过程：
$Z\sim P(Z)\rarr Z^{(i)}\rarr X^{(i)}\sim$ $P_\theta(X|Z^{(i)})$ $\xLeftarrow[NN]{逼近}$
目标：
$<\hat\theta,\hat\phi>=argminKL(q_\phi(Z|X)||P_\theta(Z|X))\\=argmaxELBO\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X,Z)]+H[q_\phi(Z|X)]\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X|Z)+logP(Z)]+H[q_\phi(Z|X)]\\=argmaxE_{q_\phi(Z|X)}[logP_\theta(X|Z)]-KL(q_\phi(Z|X)||P(Z))$

上式的最后一行，
（1） $argmax$ 项即为损失函数。
（2）KL项即为正则化项，意在使得 $q_\phi$ 更接近 $P(Z)$ ，使得 $q_\phi$ 更接近高斯分布，防止其坍缩到一个点。

使用梯度下降法 $\hat\theta$ 和 $\hat\phi$ 。采用重参数化技巧+神经网络（如SGVI, SGVB, SVI, Amortized Inference等）来解决该优化问题，即求近似后验。

SGVI为例：假设 $q(Z|X)$

注意： 初始是从 $P(Z)$ 中采样 $Z^{(i)}$ ，训练时是从 $q_\phi(Z|X)$ 中采样 $Z^{(i)}$ 。