对比方面:
1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position
2.XLNET使用多种因式分解进行预测。
这张图表示什么意思?QUERY和KEY,VALUE表示什么?
3.对每层的注意力进行掩码。
4.由于不知道预测词的位置,所以需要另外一个模型来预测预测值的位置
对比方面:
1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position
2.XLNET使用多种因式分解进行预测。
这张图表示什么意思?QUERY和KEY,VALUE表示什么?
3.对每层的注意力进行掩码。
4.由于不知道预测词的位置,所以需要另外一个模型来预测预测值的位置
相关文章: