神经网络学习笔记-受限波尔兹曼机（Restricted Boltzmann Machines）

受限波尔兹曼机（Restricted Boltzmann Machines,RBM）是一类具有两层结构，对称连接且无自反馈的随机神经网络模型，层间全连接，层内无连接。
当给定可见层神经元的状态时，各隐藏层神经元的之间是否**是条件独立的；反之也同样成立。

基于能量模型。Hinton提出针对其的训练算法(对比散度算法)
实践证明，RBM是一种有效的特征提取方法，用于初始化前馈神经网络可明显提高泛化能力，堆叠多个RBM组成的DBN能提取更抽象的特征。
利用RBM的堆叠可以构造出深层的神经网络模型——深度信念网(Deep Belief Net, DBN)
每个节点都是一个二值的随机变量
神经网络学习笔记-受限波尔兹曼机（Restricted Boltzmann Machines）

隐藏层的神经元的个数为 $n_{h}$ ，
隐藏层神经元的状态 $h = (h_{1}, h_{2}, . . ., h_{n_{h}})^{T} \in R^{n_{h}}$
隐藏层神经元的偏置 $b = (b_{1}, b_{2}, . . ., b_{n_{h}})^{T} \in R^{n_{h}}$

假设可见层的神经元的个数为 $n_{v}$ ，
可见层神经元的状态 $v = (v_{1}, v_{2}, . . ., v_{n_{v}})^{T} \in R^{n_{v}}$ ,
可见层神经元的偏置 $a = (a_{1}, a_{2}, . . ., a_{n_{v}})^{T} \in R^{n_{v}}$ ,

隐藏层与可见层之间的连接权重 $W = (w_{i j}) \in R^{n_{h} \times n_{v}}$

网络参数 $θ = (W, a, b)$

联合组态的能量公式

E_{θ} (v, h) = - \sum_{i = 1}^{n_{v}} a_{i} v_{i} - \sum_{j = 1}^{n_{h}} b_{j} h_{j} - \sum_{i = 1}^{n_{v}} \sum_{j = 1}^{n_{h}} h_{j} w_{i j} v_{i}

联合概率分布:

P_{θ} (v, h) = \frac{- E_{θ} (v, h)}{\sum_{v, h} - E_{θ} (v, h)} = \frac{- E_{θ} (v, h)}{Z_{θ}}

$Z_{θ}$ 为归一化因子
边缘概率分布：

P_{θ} (v) = \sum_{h} P_{θ} (v, h) = \frac{\sum_{h} - E_{θ} (v, h)}{Z_{θ}}

P_{θ} (h) = \sum_{v} P_{θ} (v, h) = \frac{\sum_{v} - E_{θ} (v, h)}{Z_{θ}}

当给定可见层的状态时，隐藏层上的某一个神经元被**的概率，即

P (h_{k} = 1 | v)

当给定了隐藏层的状态时，可见层上的某一神经元被**的概率，即

P (v_{k} = 1 | h)

h

中去除了分量

h_{k}

后的向量

h_{- k} = (h_{1}, h 2, . . ., h_{k - 1}, h_{k + 1}, . . ., h_{n_{h}})^{T}

E_{θ} (v, h) = - \sum_{i = 1}^{n_{v}} a_{i} v_{i} - \sum_{j = 1}^{n_{h}} b_{j} h_{j} - \sum_{i = 1}^{n_{v}} \sum_{j = 1}^{n_{h}} h_{j} w_{i j} v_{i}

= - β (v, h_{- k}) - h_{k} α_{k} (v)

α_{k} (v) = b_{k} + \sum_{i = 1}^{n_{v}} w_{k i} v_{i}

P (h_{k} = 1 | v) = \frac{1}{1 + e^{- α_{k} (v)}}

= S i g m o i d (α_{k} (v))

= S i g m o i d (b_{k} + \sum_{i = 1}^{n_{v}} w_{k i} v_{i})

同理，可以求得当给定了隐藏层的状态时，可见层上的某一神经元被**的概率

P (v_{k} = 1 | h) = \frac{1}{1 + e^{- α_{k} (h)}}

= S i g m o i d (α_{k} (h))

= S i g m o i d (a_{k} + \sum_{j = 1}^{n_{h}} w_{k j} h_{j})

对于RBM模型，其参数主要是可见层和隐藏层之间的权重，可见层的偏置以及隐藏层的偏置，即θ=(W,a,b)，对于给定的训练样本，通过训练得到参数θ，使得在该参数下，由RBM表示的概率分布尽可能与训练数据相符合
设训练集

X = {v^{1}, v^{2}, . . ., v^{n_{s}}}

训练RBM的目标就是最大化如下的似然函数

L_{θ} = \prod_{i = 1}^{n_{s}} P (v^{i})

l n L_{θ} = l n \prod_{i = 1}^{n_{s}} P (v^{i}) = \sum_{i = 1}^{n_{s}} l n P (v^{i})