RBM - 爱码网

考虑一组具有 $m$ 个样本的数据集 $\mathbb{X}=\{x^{(1)},\dots,x^{(m)}\}$ ，独立地由真实数据生成分布 $p_{data}(x)$ 生成。令 $p_{model}(x;\theta)$ 是一族由 $\theta$ 确定在相同空间上的概率分布，换言之， $p_{model}(x;\theta)$ 将任意输入 $x$ 映射到实数来估计真实概率 $p_{data}(x)$ 。对 $\theta$ 的最大似然估计被定义为
$\theta_{ML}=argmax_\theta p_{model}(\mathbb{X};\theta)=argmax_\theta\prod_{i=1}^m p_ {model}(x^{(i)};\theta) \tag{1}$
因为多个概率的乘积不便于计算，便转为求和形式
$\theta_{ML}=argmax_\theta\sum_{i=1}^mlogp_{model}(x^{(i)};\theta)\tag{2}$
重新缩放代价函数时，对优化结果没有影响，可以除以 $m$ ，从而以训练数据经验分布 $\hat{p}_{data}$ 的期望作为准则
$\theta_{ML}=argmax_\theta\mathbb{E}_{x\sim\hat{p}_{data}}logp_{model}(x;\theta) \tag{3}$
一种关于最大似然估计的观点是看作最小化训练集上的经验分布 $\hat{p}_{data}$ 和模型分布 $p_{model}$ 之间的差异，差异可以通过 $KL$ 散度定义为
$D_{KL}(\hat{p}_{data}||p_{model})=\mathbb{E}_{x\sim\hat{p}_{data}}[log\hat{p}_{data}(x)-logp_{model}(x)] \tag{4}$
左边仅涉及数据生成过程，和模型无关，所以只需要最小化
$\theta_{ML}=argmin_\theta-\mathbb{E}_{x\sim\hat{p}_{data}}logp_{model}(x;\theta) \tag{5}$
我们可以将最大似然看作使模型分布尽可能和经验分布 $\hat{p}_{data}$ 相匹配，理想情况下能够匹配真实分布 $p_{data}$ ，但我们无法直接知道这个真实分布。
考虑用受限玻尔兹曼机RBM来对 $p_{model}$ 进行建模，RBM有两层，分别称为可见层(visible layer)和隐藏层(hidden layer)，可见层为可观察变量 $v$ ，隐藏层为潜变量 $h$ 。层内无连接，层间全连接，是一个二分网络结构，所以当给定可见层神经元状态时，隐藏层各神经元条件独立，反之亦然。可见层神经单元用来描述观察数据，隐藏层神经单元可以看作特征提取层。
RBM
就像普通的玻尔兹曼机，受限玻尔兹曼机也是基于能量的模型，其联合概率分布由能量函数指定（能量函数的概念最早来自于统计热力学家研究磁体的易辛模型，后来被Hinton借鉴发展为RBM模型）
$P_\theta(\mathtt{v}=v,\mathtt{h}=h)=\frac{1}{Z}exp(-E(v,h)) \\ =\frac{1}{Z(\theta)}exp(\sum_{i=1}^D\sum_{j=1}^FW_{ij}v_ih_j+\sum_{i=1}^Dv_ib_i+\sum_{j=1}^Fh_ja_j)\tag{6}$
$P_\theta(\mathtt{v}=v)=\frac{1}{Z(\theta)}exp(v^TWh+a^T+b^Tv) \tag{7}$
RBM的能量函数由下给出
$E(v,h)=-b^Tv-c^Th-v^TWh \tag{8}$
我们通过最大似然估计来确定RBM的参数
$\theta=argmax_\theta L(\theta)=argmax_\theta\frac{1}{N}\sum_{i=1}^mlogP_\theta(v^{(i)})\tag{9}$
可以通过随机梯度下降确定参数，首先要求 $L(\theta)$ 对 $W$ 的导数
$\frac{\partial L(\theta)}{\partial W_{ij}}=\frac{1}{N}\sum_{n=1}^m \frac{\partial}{\partial W_{ij}}log(\sum_hexp[v^{(n)T}Wh+a^Th+b^Tv^{(n)}])-\frac{\partial}{\partial W_{ij}}logZ(\theta)\\ =E_{P_{data}}[v_ih_j]-E_{P_\theta}[v_ih_j] \tag{10}$
上式的前一项在全部数据集上求平均值即可，后一项等于 $\sum_{\mathtt{v},\mathtt{h}}v_ih_jP_\theta(\mathtt{v},\mathtt{h})$ ，其中 $Z$ 是被称为配分函数的归一化常数
$Z=\sum_v\sum_hexp(-E(v,h)) \tag{11}$
计算配分函数 $Z$ 的朴素方法是对所有状态进行穷举求和，计算上是难以处理的，Long and Servedio(2010)正式证明配分函数 $Z$ 是难解的。但是RBM的二分网络结构具有特定性质，因为可见层和隐藏层内部各神经元是条件独立的，所以条件分布 $p(\mathtt{h}|\mathtt{v})$ 和 $p(\mathtt{v}|\mathtt{h})$ 是因子的，并且计算和采样相对简单。
$P(h|v)=\frac{P(h,v)}{P(v)} \\ = \frac{1}{P(v)}\frac{1}{Z}exp\{b^Tv+c^Th+v^tWh\} \\ = \frac{1}{Z'}exp\{c^Th+v^TWh\} \\ = \frac{1}{Z'}exp\{\sum_{j=1}^{n_h}c_j^Th_j+\sum_{n_h}^{j=1}v^TW_{:,j}h_j\} \\ = \frac{1}{Z'}\prod_{j=1}^{n_h}exp\{c_j^Th_j+v^TW_{:,j}h_j\} \tag{12}$