ALBERT简单note - 爱码网

首先看下BERT和ALBERT模型的一些版本配置

ALBERT简单note

1. Layer个数和performance的关系：24层是个临界点，大于24后效果有下降趋势

2. 隐藏层节点数目和performance的关系：4096个是个临界点，大于4096后效果有下降趋势

ALBERT简单note

3. 宽的ALBERT需要深的架构吗？作者的答案是:NO (但我觉得未必，只是Table里4096还不够宽，如果是1w甚至10w级别的，我想会需要深的)

　　ALBERT-large (H=1024) -- ALBERT-xxlarge (H=4096)

ALBERT简单note

4.下游任务超参设置

ALBERT简单note

Further 比较

1. 可以看到Figure 1.中，每一层的输入和输出的相似度度量的变换是比较平滑的（蓝色），但是并没有趋于0，与Deep Equilibrium Model（DQE）有很大不同

ALBERT简单note

2. 词嵌入维度的影响：对于not-shared类型，随着E增加，效果提升，但作者认为效果提升不大。对于all-shared类型，E=128似乎是最好的。

ALBERT简单note

3. 不要用NSP了，还是用SOP吧

ALBERT简单note