学习链接

对比方面:

1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position

2.XLNET使用多种因式分解进行预测。

BERT和XLNET的对比

BERT和XLNET的对比

这张图表示什么意思?QUERY和KEY,VALUE表示什么?

3.对每层的注意力进行掩码。

4.由于不知道预测词的位置,所以需要另外一个模型来预测预测值的位置

相关文章: