论文:arXiv:1804.02086v3
摘要:
深度隐变量模型在学习多维表示使用的是非监督学习方式。现在有许多表示学习在 disentangle 变量时对目标方程进行修正,这些方式先假设一个高斯先验,但是这样将不能稳定可靠的disentangle离散变量。论文提出了2级层级目标去控制相关精度:区域块变量和独立单变量之间的统计独立性。论文根据 evidence lower bound (ELBO),表示各变量之间的协定,数据和表示的互信息,表示和先验的KL散度,经验数据分布的覆盖度。论文解决2个问题:1. 离散变量的disentangle 2. 生成变量之间的联系
VAE基础知识:
首先抛出一个定义式,ELBO
该定义式还有其他写法:
ELBO的分解:
上式可以根据log的加法进行化简,化简到最后就是第一个定义式。
对于①②③④,有如下功能解释:
③+④:加强 x 和 z 边缘分布的相容性(一致性)
③:最小化KL散度,就是最大化 marginal likelihood (贝叶斯公式的定义可查).
④:最小化KL散度,,确保 marginal 逼近 prior
,增加将增加disentanglement
①+②:加强 conditional distribution(条件分布)间的相容性(一致性)
①:最大化隐变量z生成的每个x的可辨识性,当我们采样时,likelihood
的概率应该比marginal likelihood
高
②:修正①,最小化 z 和 x 之间的互信息,当
映射到 x 的时候使用更少的可辨识值,增加将扔掉更多关于x的信息
由于①很难求解,所以将①和③合并在一起:
①+③:
论文有张图,非常生动形象:
β-VAE:
可以理解为:,当 β > 1 时,引入 disentangled representations,于此同时,模型为了减小互信息,扔掉更多关于 x 的信息。
修正:
论文基于 β-VAE 的不足进行了改进:将④修改成如下表示形式(如果化简,将成为相对熵也就是散度的定义式),
最终形式可以如下表示:
附录里面有张表格,展示了主流关于VAE的算法总结,后面是个绿色框对应的论文名称:
疑问:为什么要分成2层,2层的好处是什么?