首先看下BERT和ALBERT模型的一些版本配置

ALBERT简单note

1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势

ALBERT简单note

 

2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势

ALBERT简单note

 3. 宽的ALBERT需要深的架构吗?作者的答案是:NO (但我觉得未必,只是Table里4096还不够宽,如果是1w甚至10w级别的,我想会需要深的)

  ALBERT-large (H=1024) -- ALBERT-xxlarge (H=4096)

ALBERT简单note

 4.下游任务超参设置

ALBERT简单note

 

Further 比较

1. 可以看到Figure 1.中,每一层的输入和输出的相似度度量的变换是比较平滑的(蓝色),但是并没有趋于0,与Deep Equilibrium Model(DQE)有很大不同

ALBERT简单note

ALBERT简单note

 

 

 2. 词嵌入维度的影响:对于not-shared类型,随着E增加,效果提升,但作者认为效果提升不大。对于all-shared类型,E=128似乎是最好的。

ALBERT简单note

 3. 不要用NSP了,还是用SOP

ALBERT简单note

 

相关文章:

  • 2021-12-30
  • 2021-05-17
  • 2022-12-23
  • 2021-10-27
  • 2022-12-23
  • 2021-06-22
  • 2021-08-12
  • 2022-12-23
猜你喜欢
  • 2021-09-27
  • 2021-05-16
  • 2021-09-20
  • 2022-01-09
  • 2021-07-19
  • 2021-09-08
  • 2021-06-13
相关资源
相似解决方案