在论文当中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如图所示:
batch size 越大,学习率也要越大

结论:batchsize变大,学习率也要相应变大;本质是为了梯度的方差保持不变; 

1、为什么要保证梯度的方差不变呢?
   

    个人猜想,是为了解决陷入局部最优和一个sharp 最小值(类似于一个很尖的V底)的问题,增强泛化能力;增加了学习率,就增大了步长;

相关文章: