ELMO - 爱码网

ELMO的每层计算中，通过一个正向RNN得到每个词的embedding，再通过一个反向的RNN得到每个词的embedding，再将同一个词的两个embedding进行contact，因此每个词在不同的上下文中，词向量就不同了。

ELMO

ELMO实际上是一个多层的组合，假设一个两层的ELMO计算后，每个词会得到两个embedding，那么ELMO会使用两个权重相乘再累加的方式求到最后该字的embedding。

ELMO

那么α1和α2如何获取呢？

这两者是在任务中作为参数一并学习得到的（类似于一种weight）

ELMO

需要注意的是，不同层的task需要抽取的ELMO不同层的embedding值，例如下图，SQuAD只需要第一层embedding结果即可，这样就不需要设置α这个值。