Deep contextualized word representations

介绍了深层语境词的表示，模型包括

1）复杂的词特征（语义，语法）的使用，

2）跨语境环境中如何使用（如何表示一词多义）。

我们的词向量是从深层双向语言模型（biLM）的内部状态学习到。这在大的文本语料库学习到。研究表示这些表示很容易加到现有模型中，并且获得很好的结果，任务包括question answering, textual entailment and sentiment analysis。研究表示探索现有训练好的模型的深层内在很重要。

1 Introduction

预先训练好的词表示对一些神经语言理解模型特别重要。但是，学习高质量的表示很困难，他们必须可以获得1）词的复杂特征（语义，语法）2）跨语境环境的使用（如何表示一词多义）。本文提出了一种新的深层语境词的表示，可以处理这两种问题，并且可以融合到现有模型中，并取得很好的结果。

我们的表示和传统的词嵌入不同，他们是给每个标记赋予向量，我们是每个输入句子赋予一个函数，使用从bi-LSTM获得的向量，bi-LSTM由在大量文本语料库训练的语言模型获得。所以叫做ELMo（embeddings from Language Model）表示，和之前学习语境词向量的方法不同，ELMo表示是深的，某种意义上是biLM的所有内在函数。而且我们学习了堆叠在每个输入词上的向量的线性组合。

使用这种方式结合内在状态可以获得丰富的词表示，使用内在评价方法发现高级LSTM的状态捕获了依赖于上下文层次的词的意思（可以用于词义消歧任务）。低级状态获得了语义信息（用来词性标注）。

实验表示ELMo表示表现很好。容易加到其他任务上，比如textual entailment, question answering and sentiment analysis。

2 Related work

由于可以从大量没标记的文本捕获语义和语法信息，预先训练的词向量是NLP架构的一个基本组成部分，包括question answering, textual entailment and semantic role labeling，但是，这些方法只是给每个词从单个上下文独立表示学习词向量。

之前的方法克服了传统模型的缺点，比如使用子词增加信息或是从每个词义学习向量。我们的方法通过字符级的卷积获得子词信息，而且无缝结合多意义信息到下流任务，不需要训练预测预先定义好的类别。

其他工作专注于学习依赖于上下文的表示。context2vec使用bi-LSTM编码中心词附近的文本。学习上下文词嵌入的其他方法包括把中心词算在表示内，使用监督神经机器翻译计算或是非监督语言模型。他们都得益于大的数据集。本文都利用这种优点，在大量语料训练biLM模型，使用这些方法泛化深度上下文表示。

先前的工作表示deep biRNNs的不同层编码不同的信息。例如，在deep LSTM的低层引进多任务的语法监督学习可以提高任务性能，比如依存句法分析或CCG标记。在基于RNN的编码解码的机器翻译模型表示在POS中，两层LSTM编码器中第一层学习到的表示好于第二层。

3 ELMo: Embeddings from Language Models

不像其他使用广泛的词嵌入，ELMo的词表示的整个输入句子的函数，两层的biLM和字符级的卷积在最后层计算获得。这种方法可以进行半监督学习，biLM是预先训练好，而且可以融合到现有神经NLP架构中。

Deep contextualized word representations

3.2 ELMo

Deep contextualized word representations

3.3 Using biLMs for supervised NLP tasks

Deep contextualized word representations

3.4 Pre-trained bidirectional language model architecture

4 Evaluation

5 Analysis

5.1 Alternate layer weighting schemes

5.2 Where to include ELMo?

本文所有的架构包括词嵌入都是biRNN的最底层的输入，ELMo可以在包含在输入层和输出层，

Deep contextualized word representations