Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

研究意义

LSTM具有超时保存序列信息的优良性能，同时更复杂的计算单元，因此在众多的序列任务中取得了很好的效果，仅仅基于LSTM结构至今仍然是一个线性链。然而，自然语言表现出自然地将单词与短语组合在一起的句法性质。本文提出了树结构的LSTM，将LSTM推广到树状的网络拓扑结构，Tree-LSTMs在预测两个句子的语义相关性和电影评论中进行情感分类两个方面上进行实验，证明都要优于现有的系统。
如图所示，上面的为Lstm的线性，下面图是Lstm的树形：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

提出模型

LSTM

循环神经网络（RNNs）能够通过在隐藏状态向量ht循环应用转移函数来处理任意长度的输入序列。在每一时刻t t，其隐藏态ht是一个由当前时刻的输入向量xt 和上一时刻的隐藏态ht−1构成的函数。例如，输入向量xt可以是文本中第t tt个单词的向量表示。隐藏态ht能够被解释为t时刻所观测到的由单词所组成的句子的多维分布式表示。运用的相关公式如下所示：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

Tree-Structured LSTMs

LSTM结构的限制在于，其只允许顺序信息的传播。在这一节，我们提出了由基本LSTM扩展出的两种结构：Child-Sum Tree-LSTM和N-ary Tree-LSTM。这两个变种均允许更丰富的网络拓扑结构，其中每个LSTM单元能够联合来自多个子单元的信息。
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
Tree-LSTM中的每一个单元都有一个输入向量xj。在我们的应用当中，每一个xj是一句话中一个单词的向量表示。每一个节点的输入单词依赖于当前网络的树结构。例如，在一个由依存树构成的Tree-LSTM中，树中每个结点都是以相应首要词的向量作为输入，而在一个由constituency tree构成的Tree-LSTM中，叶结点则以相应单词向量作为输入。

Child-Sum Tree-LSTMs

Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
其中，k∈C(j)，在一个依存树的应用中，当一个语义上非常重要的单词（例如动词）作为输入时，其输入门ij能够接近于1，当输入单词是一个不重要的单词时，其输入门ij
能够接近于0。

N-ary Tree-LSTM

分支因子为N，对LSTM的相关参数做出了变化，相关公式如下所示：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

Tree-LSTM classification

给定输入x,对于节点j，使用softmax分类器去预测标签，相关公式如下：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
损失函数是负对数似然性：

Semantic Relatedness of Sentence Pairs

利用神经网络从距离和角度两个方面进行句子之间相似度计算：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
损失函数使用的是KL离散度：

实验结果

情感分类

使用了五分类和二分类两种情况，并且与其他方法进行对比实验：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

语义相关度

Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks