Deep contextualized word representations
介绍了深层语境词的表示,模型包括
1)复杂的词特征(语义,语法)的使用,
2)跨语境环境中如何使用(如何表示一词多义)。
我们的词向量是从深层双向语言模型(biLM)的内部状态学习到。这在大的文本语料库学习到。研究表示这些表示很容易加到现有模型中,并且获得很好的结果,任务包括question answering, textual entailment and sentiment analysis。研究表示探索现有训练好的模型的深层内在很重要。
1 Introduction
预先训练好的词表示对一些神经语言理解模型特别重要。但是,学习高质量的表示很困难,他们必须可以获得1)词的复杂特征(语义,语法)2)跨语境环境的使用(如何表示一词多义)。本文提出了一种新的深层语境词的表示,可以处理这两种问题,并且可以融合到现有模型中,并取得很好的结果。
我们的表示和传统的词嵌入不同,他们是给每个标记赋予向量,我们是每个输入句子赋予一个函数,使用从bi-LSTM获得的向量,bi-LSTM由在大量文本语料库训练的语言模型获得。所以叫做ELMo(embeddings from Language Model)表示,和之前学习语境词向量的方法不同,ELMo表示是深的,某种意义上是biLM的所有内在函数。而且我们学习了堆叠在每个输入词上的向量的线性组合。
使用这种方式结合内在状态可以获得丰富的词表示,使用内在评价方法发现高级LSTM的状态捕获了依赖于上下文层次的词的意思(可以用于词义消歧任务)。低级状态获得了语义信息(用来词性标注)。
实验表示ELMo表示表现很好。容易加到其他任务上,比如textual entailment, question answering and sentiment analysis。
2 Related work
由于可以从大量没标记的文本捕获语义和语法信息,预先训练的词向量是NLP架构的一个基本组成部分,包括question answering, textual entailment and semantic role labeling,但是,这些方法只是给每个词从单个上下文独立表示学习词向量。
之前的方法克服了传统模型的缺点,比如使用子词增加信息或是从每个词义学习向量。我们的方法通过字符级的卷积获得子词信息,而且无缝结合多意义信息到下流任务,不需要训练预测预先定义好的类别。
其他工作专注于学习依赖于上下文的表示。context2vec使用bi-LSTM编码中心词附近的文本。学习上下文词嵌入的其他方法包括把中心词算在表示内,使用监督神经机器翻译计算或是非监督语言模型。他们都得益于大的数据集。本文都利用这种优点,在大量语料训练biLM模型,使用这些方法泛化深度上下文表示。
先前的工作表示deep biRNNs的不同层编码不同的信息。例如,在deep LSTM的低层引进多任务的语法监督学习可以提高任务性能,比如依存句法分析或CCG标记。在基于RNN的编码解码的机器翻译模型表示在POS中,两层LSTM编码器中第一层学习到的表示好于第二层。
3 ELMo: Embeddings from Language Models
不像其他使用广泛的词嵌入,ELMo的词表示的整个输入句子的函数,两层的biLM和字符级的卷积在最后层计算获得。这种方法可以进行半监督学习,biLM是预先训练好,而且可以融合到现有神经NLP架构中。
3.2 ELMo
3.3 Using biLMs for supervised NLP tasks
3.4 Pre-trained bidirectional language model architecture
4 Evaluation
5 Analysis
5.1 Alternate layer weighting schemes
5.2 Where to include ELMo?
本文所有的架构包括词嵌入都是biRNN的最底层的输入,ELMo可以在包含在输入层和输出层,
5.3 What information is captured by the biLM’s representations?
5.4 Sample efficiency
5.5 Visualization of learned weights
6 Conclusion