GPT-2的模型非常巨大,它其实是Transformer的Decoder。GPT-2是Transformer的Decoder部分,输入一个句子中的上一个词,我们希望模型可以得到句子中的下一个词。

Autoregressive LM---GPT模型

Autoregressive LM---GPT模型Autoregressive LM---GPT模型

  由于GPT-2的模型非常巨大,它在很多任务上都达到了惊人的结果,甚至可以做到zero-shot learning(简单来说就是模型的迁移能力非常好),如阅读理解任务,不需要任何阅读理解的训练集,就可以得到很好的结果。

Autoregressive LM---GPT模型

GPT-2可以自己进行写作 

Autoregressive LM---GPT模型

0-5层与0-5head的对应:

Autoregressive LM---GPT模型

 

 

 

 

 参考文献:

【1】李宏毅机器学习2019(国语)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

相关文章:

  • 2021-11-21
  • 2021-09-15
  • 2022-12-23
  • 2021-12-30
  • 2021-04-20
  • 2021-11-07
  • 2022-12-23
猜你喜欢
  • 2021-12-26
  • 2021-09-27
  • 2022-12-23
  • 2021-07-02
  • 2021-04-19
  • 2022-12-23
  • 2021-11-02
相关资源
相似解决方案