Deep Memory Network 深度记忆网络

RNN解决长期依赖的能力随着文本长度的增加越来越差，attention机制是解决这种问题的一种思路，今天我们再来看另外一种思路，深度记忆网络。Deep Memory Network在QA和Aspect based Sentiment等NLP领域都有过成功的实践，但其提出者本身是以通用模型的形式提出的。

Introduce of Memory Network

Memory Network是一种新的可学习模型，它使用一个整合了长期记忆的一个组件(称为Memory)作为推断组件(inference components)来进行推理。长期记忆Memory可以被读和写，以实现预测的最终目的。原论文作者认为RNN的记忆问题(无法完成简单的复制任务，即将输入原样输出)也可以被Memory Network解决。它核心思想来自机器学习文献中使用可读写的记忆模块来

Memory Networks

一个记忆网络是由一个记忆 $m$ (一个以 $m_i$ 作为索引的数组对象)和4个组件 $I,G,O,R$ 组成。其中：

I:(input feature map) - 将输入转化为中间特征表示。
G:(Generalization) - 给定新输入的条件下更新旧记忆。原作者称之为泛化，因为网络在该阶段有机会将记忆压缩和泛化以供后面使用。
O:(Output feature map) - 给定新输入和当前记忆状态，产生一个新的输出(在特征表示空间上)。
R:(Response) - 将output(即O)转化到目标形式(例：一个文本的回复或者一个动作)

Memory Networks的处理过程

给定一个输入x(例：字符、词或者句子(视处理力度而定)，图像或者声音信号)，模型处理过程如下：

将x转化为中间特征表示 $I(x)$ 。
使用新输入更新记忆 $m_i$ : $m_i=G(m_i, I(x), m), \forall i$
使用新输入的中间特征表示和记忆计算输出特征 $o$ : $o=O(I(x), m)$
最后，解码输出特征到最终回复: $r=R(o)$

这个过程在训练和测试时都适用，两者之间的区别在于：测试时记忆也会被存储，但模型参数 $I,G,O,R$ 将不会再更新。 $I,G,O,R$ 可以使用现有任何机器学习的方法来实现(SVM, 决策树)。

组件 $I$ : $I$ 可以使用标准的预处理步骤来实现，比如输入文本的语法分析、指代消解、实体识别等。它同样也可以将输入编码到一个中间的特征表示(将文本转化为稀疏或者稠密的特征向量)。

组件 $G$ : 最简单的G的形式可以是将 $I(x)$ 储存起来的槽位(slot):
$m_{H(x)}=I(x)$
其中 $H(x)$ 是选择槽位的一个函数。即， $G$ 只更新m的索引 $H(x)$ ，其他索引下的记忆部分将保持不变。更复杂的 $G$ 的实现还可以允许 $G$ 去根据当前输入x得到的新证据去更新先前存储的记忆。如果输入是字符级别或者词级别的你也可以将其进行分组。

如果记忆非常庞大(假设要记忆整个Freebase或者Wikipedia)，你可能不得不把记忆使用 $H(x)$ 来组织起来。

如果记忆已经被填满。你也可以使用 $H$ 来实现一种遗忘机制。

$O$ 和 $R$ 组件： $O$ 组件被特别应用于读取记忆和执行推断， $R$ 组件则根据 $O$ 的输出产生最终回复。例：在QA中，使用 $O$ 查找相关的记忆，然后 $R$ 生成文字来组成答案。 $R$ 可以是RNN，视 $O$ 的输出而定。这种设计基于的假设是，如果没有限定在这种记忆上，RNN会表现得相当差(事实上很多场景下确实如此)。

原论文给了一个文本处理的例子，但由于这个模型并没有广泛使用这里就不介绍了。我们转而介绍一种常用的端到端的记忆网络实现。

End-To-End Memory Network

端到端的记忆网络本质上也是一种RNN架构，但与RNN不同之处在于，在递归过程中会多次读取大型外部存储的记忆来输出一个符号。下面介绍的Memory Network可以有很多层，也易于反向传播，需要对网络的每一层进行监督训练。它以端到端的形式被应用于QA和Aspect Based Sentiment。

模型将一系列离散的输入 $x_i,...,x_n$ 存储在记忆中，并接受一个查询 $q$ ，输出回答 $a$ 。模型会将所有的 $x$ 写为记忆存储在一个固定大小的缓存中，然后寻求一个 $x$ 和 $q$ 的连续表示。该连续表示会被多跳处理以输出a。这使得错误信号能够在多级记忆中反向传播到输入。

Single Layer

整个模型是很多层堆起来的，我们先介绍单个层。

输入记忆表示(Input memory representation)：假定我们被给定输入集 $x_1,...,x_i$ 存储在记忆中。整个输入集 ${x_i}$ 都会经由每个 $xi$ 所处的连续空间的嵌入(embedding)被转化为维度为 $d$ 的记忆向量 ${m_i}$ ，最简单的实现方法可以使用一个嵌入矩阵 $A(d\times V)$ ，查询 $q$ 也会被嵌入，可以用维度与 $A$ 相同的嵌入矩阵 $B$ 来得到一个中间状态 $u$ ，在嵌入空间上，我们使用内积计算 $u$ 和记忆 $m_i$ 的匹配程度，然后再softmax:
$p_i=Softmax(u^Tm_i) \ (1)$

输出记忆表示(Output memory representation):每一个 $x_i$ 都有一个相关的输出向量 $c_i$ (最简单的情况下使用另外的嵌入矩阵 $C$ )。自记忆 $o$ 产生的回复向量通过使用自输入产生的概率向量 $p_i$ 与转化后的 $c_i$ 加权求和得到：
$o=\sum_ip_ic_i$

产生最终预测：在单层的情况下，输出向量 $o$ 的和输入嵌入 $u$ 求和再乘上一个最终的权重矩阵 $W$ ，然后经过softmax产生预测标签：
$\hat{a}=Softmax(W(o+u))$
Deep Memory Network 深度记忆网络

Multi Layers

模型可以扩展到处理K条操作。记忆层是以如下方式进行堆积的：

下一层的input由上一层的输出 $o^k$ 和输入 $u^k$ 求和得来：
$u^{k+1}=u^k+o^k$
每一层都有自己的嵌入矩阵 $A^k, C^k$ ，本用于对输入 ${x_i}$ 进行嵌入。但是，这些矩阵被限制在易于训练并且能减少参数的数量的程度。
在网络顶层， $W$ 对应的输入同样组合了输入和记忆层顶层的输出:
$\hat{a}=Softmax(Wu^{K+1})=Softmax(W(o^K+u^K))$

原论文探索了两种类型的权重捆绑：

邻接(Adjacent)：一个层输出的嵌入是下一层的输入，即： $A^{k+1}=C^K$ ，作者同样也限制: (a)回答预测矩阵要和最终的输出嵌入相同，即: ${W^T=C^K}$ 。(b)问题嵌入和第一层的输入嵌入相同，即 $B=A^1$
层级别(Layer-wise，类RNN)：层与层之间共享输入个输出嵌入，即:
$A^1=A^2=...=A^K$ 且 $C^1=C^2=...=C^K$ 。作者发现在层间加上一个线性的映射函数 $H$ 非常有用，即 $u^{k+1}=Hu^k+o^k$ 。H同样也是被学习的参数和其他参数一起更新。

参考文献

MEMORY NETWORKS (ICLR 2015)
End-To-End Memory Networks (NIPS 2015)