Deep contextualized word representations

介绍了深层语境词的表示,模型包括

1)复杂的词特征(语义,语法)的使用,

2)跨语境环境中如何使用(如何表示一词多义)。

我们的词向量是从深层双向语言模型(biLM)的内部状态学习到。这在大的文本语料库学习到。研究表示这些表示很容易加到现有模型中,并且获得很好的结果,任务包括question answering, textual entailment and sentiment analysis。研究表示探索现有训练好的模型的深层内在很重要。

1 Introduction

预先训练好的词表示对一些神经语言理解模型特别重要。但是,学习高质量的表示很困难,他们必须可以获得1)词的复杂特征(语义,语法)2)跨语境环境的使用(如何表示一词多义)。本文提出了一种新的深层语境词的表示,可以处理这两种问题,并且可以融合到现有模型中,并取得很好的结果。

我们的表示和传统的词嵌入不同,他们是给每个标记赋予向量,我们是每个输入句子赋予一个函数,使用从bi-LSTM获得的向量,bi-LSTM由在大量文本语料库训练的语言模型获得。所以叫做ELMo(embeddings from Language Model)表示,和之前学习语境词向量的方法不同,ELMo表示是深的,某种意义上是biLM的所有内在函数。而且我们学习了堆叠在每个输入词上的向量的线性组合。

使用这种方式结合内在状态可以获得丰富的词表示,使用内在评价方法发现高级LSTM的状态捕获了依赖于上下文层次的词的意思(可以用于词义消歧任务)。低级状态获得了语义信息(用来词性标注)。

实验表示ELMo表示表现很好。容易加到其他任务上,比如textual entailment, question answering and sentiment analysis。

2 Related work

由于可以从大量没标记的文本捕获语义和语法信息,预先训练的词向量是NLP架构的一个基本组成部分,包括question answering, textual entailment and semantic role labeling,但是,这些方法只是给每个词从单个上下文独立表示学习词向量。

之前的方法克服了传统模型的缺点,比如使用子词增加信息或是从每个词义学习向量。我们的方法通过字符级的卷积获得子词信息,而且无缝结合多意义信息到下流任务,不需要训练预测预先定义好的类别。

其他工作专注于学习依赖于上下文的表示。context2vec使用bi-LSTM编码中心词附近的文本。学习上下文词嵌入的其他方法包括把中心词算在表示内,使用监督神经机器翻译计算或是非监督语言模型。他们都得益于大的数据集。本文都利用这种优点,在大量语料训练biLM模型,使用这些方法泛化深度上下文表示。

先前的工作表示deep biRNNs的不同层编码不同的信息。例如,在deep LSTM的低层引进多任务的语法监督学习可以提高任务性能,比如依存句法分析或CCG标记。在基于RNN的编码解码的机器翻译模型表示在POS中,两层LSTM编码器中第一层学习到的表示好于第二层。

3 ELMo: Embeddings from Language Models

不像其他使用广泛的词嵌入,ELMo的词表示的整个输入句子的函数,两层的biLM和字符级的卷积在最后层计算获得。这种方法可以进行半监督学习,biLM是预先训练好,而且可以融合到现有神经NLP架构中。

Deep contextualized word representations

3.2 ELMo

Deep contextualized word representations

3.3 Using biLMs for supervised NLP tasks

Deep contextualized word representations

3.4 Pre-trained bidirectional language model architecture

 

4 Evaluation

 

5 Analysis

 

5.1 Alternate layer weighting schemes

 

5.2 Where to include ELMo?

本文所有的架构包括词嵌入都是biRNN的最底层的输入,ELMo可以在包含在输入层和输出层,

Deep contextualized word representations

5.3 What information is captured by the biLM’s representations?

 

5.4 Sample efficiency

 

5.5 Visualization of learned weights

 

6 Conclusion

 

 

 

相关文章: