1. 论文动机

学习高质量的词表征非常有难度。 高质量的词表征应完美建模单词使用方面的复杂特征(如句法和语义),以及单词使用在不同语言环境下的变化(即建模一词多义)

本文介绍的新的上下文词表征:ELMO(Embeddings from Language Models)

  1. ELMo能够学习到词汇用法的复杂性,比如语法、语义。
  2. ELMo能够学习不同上下文情况下的词汇多义性。

2. ELMo

2.1 ELMo 相对于 word2vec 、 glove 的优点

2.2 Bidirectional language models(双向语言模型)

给定N个tokens: (t1, ,tN){(t_1, \cdots, t_N)}, 前向语言模型计算sequence出现的可能性:

p(t1,t2, ,tN)=k=1Np(tkt1,t2, ,tk1) p(t_1, t_2, \cdots, t_N) = \prod_{k=1}^N p(t_k|t_1, t_2, \cdots, t_{k-1})

类似的,反向语言模型为:

p(t1,t2, ,tN)=k=1Np(tktk+1,tk+2, ,tN) p(t_1, t_2, \cdots, t_N) = \prod_{k=1}^N p(t_k|t_{k+1}, t_{k+2}, \cdots, t_{N})

biLM将 前向和后向LM连接,并用log来获取语言模型的最大可能性, 从而得到双向模型的公式如下:

k=1N(log  p(tkt1,t2, ,tk1;Θx,ΘLSTM,Θs)+log  p(tktk+1,tk+2, ,tN;Θx,ΘLSTM,Θs) \sum_{k=1}^N ( log \,\, p(t_k|t_1, t_2, \cdots, t_{k-1}; \Theta_x, \overrightarrow{\Theta_{LSTM}}, \Theta_s ) + \\ log \,\, p(t_k|t_{k+1}, t_{k+2}, \cdots, t_{N}; \Theta_x, \overleftarrow{\Theta_{LSTM}}, \Theta_s )

《Deep contextualized word representations》论文阅读

2.3 ELMO

《Deep contextualized word representations》论文阅读
《Deep contextualized word representations》论文阅读

我理解的模型架构:(画得很丑,勿喷)

《Deep contextualized word representations》论文阅读
《Deep contextualized word representations》论文阅读

9、 ELMo 存在问题?
10、如何评价 ELMo ?

3. 当前疑问

(1) “Collapses all layers in R into a single vector”, 如何collapse的?根据这个公式吗?
《Deep contextualized word representations》论文阅读
如何理解这个公式在bilstm网络中的影响或者表现?

感觉还没有读懂,如有错误请指出。

参考

[1] https://www.zybuluo.com/songying/note/1241126
[2] https://zhuanlan.zhihu.com/p/37684922

相关文章: